Learn more about Search Results 2022年 - Page 38
- You may be interested
- メタAI研究者がGenBenchを導入:自然言語...
- ディープラーニングを使用してファンタジ...
- 意味レイヤー:AIパワードデータエクスペ...
- 2024年に探索するべきトップ12の生...
- Aaron Lee、Smith.aiの共同設立者兼CEO ...
- ロボティクスシミュレーションとは何ですか?
- ムーバブルインクのCEO兼共同創設者である...
- 「SASが実践者のキャリアを加速するのにど...
- Twitter用の15の最高のChatGPTプロンプト...
- 2023年は大規模言語モデルの年でした...
- 「グラフアルゴリズムの探索:連結データ...
- 「Amazon Bedrock のエージェント付きカス...
- ダックAIは、DuckTrackを紹介します:マル...
- ソースコード付きのトップ14のデータマイ...
- 2024年、データサイエンティストとして、...
ウェブ3.0とブロックチェーンの進化による洞察力の向上
イントロダクション ウェブ3.0とブロックチェーンに関する洞察を提供するコミュニティThird Blockを構築した熱心な人物であるアビシェク・カテリヤ氏との対話の中で、彼の前職でのJPモルガンでのデータアナリストとしての経験、コミュニティの力、そしてこの分野で成功するためのキャリア構築の視点について共有していただく予定です。 インタビューを始めましょう AV: 自己紹介とバックグラウンドについて教えてください。 アビシェク氏 : 私はアビシェク・カテリヤと申します。フルスタックソフトウェアエンジニアで、JPモルガン&チェースで3年間働いた後、カリフォルニア拠点のAIトレードファイナンススタートアップのTradeSunに参画しました。その間、非営利セクターでの経験も豊富にあります。私はRoti Bank Foundationの創設メンバーであり、ムンバイ周辺の飢えた人々に食事を提供するための食品回収モデルの構築に取り組んできました。設立から3年間で100万食に達するために、ハイデラバード、アラ、パトナ、ナグプル、プネなどの都市にも支部を展開しました。また、ムンバイの工学大学との協力プロジェクトとして、腐った食べ物の警告装置やムンバイのハンガーマップの開発も行いました。 また、Coding4all.inというイニシアチブの一環として、高校生に無料で基本的なプログラミングを教える活動にも参加しました。5ヶ月間で200人のコホートに到達しました。学生たちがラップトップやコンピュータを持たずにオンラインで学ぶことを可能にし、世界中のテック業界のエキスパートたちが講師として参加しています。これら以外にも、Web3とブロックチェーン技術に興味を持ち始め、JPモルガンのデジタル通貨であるJPMコインプロジェクトに取り組みました。仕事の傍ら、旅行やトレッキングが好きで、インスタグラム(@abhikuchbhi_blog)にストーリーを投稿したり、MBAの進学記録を(@mbabhikuchbhi)に投稿しています。 AV: テクノロジーとビジネスマネジメントのMBAを追求していますが、MBAの取得を促した要因は何ですか? アビシェク氏: COVIDの間にMBAの計画を諦めましたが、MBAを取得するためにウォートンに行きたいと思っていました。しかし、すべての選択肢を比較する中で、インドは今後の時代において本当に適切な場所であり、Masters’ Unionは私がインドのスタートアップエコシステムに関与するための有望なオプションとして浮かび上がりました。私はあまり考えずにMUに応募し、ヒマラヤでトレッキングに行きました。戻ってきた時にはインタビューの呼び出しがあり、1ヶ月後には入学が決まりました。私はここに来てスタートアップエコシステムをより深く理解し、私のネットワークに価値ある人材を追加するためです。これは本当に素晴らしい旅であり、賢明な決断でした。 AV: キャリアに影響を与えた人物をいくつか挙げていただけますか?どのように影響を受けましたか? アビシェク氏: 小さい頃、私はいつも「バットマン」と答えていました。アイドルやメンターを持つことの意味を理解することはありませんでしたが、私は常にグリットと努力に感銘を受けたバットマンを尊敬していました。だから、常に前進し、もっとやることを私にはバットマンがインスピレーションを与えています。その他に、私の父でありシリアルアントレプレナーでもあるプラフルクマールさん。彼のベンチャーは成功しなかったものの、彼の忍耐力とグリットは今でも私に「失敗したから何だ」と言い続けてくれます。Masters’ Unionの創設者、プラサム・ミッタルさん。彼は若く、エネルギッシュであり、何でも持っていると言っても過言ではありません。しかし、彼が仕事に注ぐ熱意、エネルギー、努力は本当に素晴らしく、私にとっては確かにインスピレーションです。 起業のインスピレーション AV:…
プロンプトエンジニアリングへの紹介
イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり以来、自然言語処理(NLP)と生成型AIは進化を遂げています。これにより、プロンプトエンジニアリングは、言語モデル(LM)をマスターするために理解する必要のある特別なスキルとなりました。 学習目標 プロンプト、プロンプトエンジニアリング、および例の理解 プロンプトを洗練させるためのヒント プロンプトとプロンプトのパターンの要素 プロンプトの技法 プロンプトエンジニアリングの知識は、大規模な言語モデル(LLM)を基本的に使用する際の能力と制限をより良く理解するのに役立ちます。 この記事は、データサイエンスブログマラソンの一部として公開されました。 プロンプトエンジニアリングとは何ですか? プロンプトエンジニアリングは、人工知能の自然言語処理の分野で、AIが行うべきことをテキストで説明する実践です。この入力によってガイドされ、AIは出力を生成します。これは、人間が理解できるテキストを対話的にモデルとコミュニケーションするためのもので、タスクの説明が入力に埋め込まれているため、モデルは柔軟に動作し、可能性が広がります。 詳細はこちらをご覧ください:プロンプトエンジニアリング:パワフルなプロンプトの作成のアート プロンプトとは何ですか? プロンプトは、モデルから期待される出力の詳細な説明です。これはユーザーとAIモデルの間の対話です。これにより、エンジニアリングについてより理解が深まります。 プロンプトの例 ChatGPTやGPT-3などの大規模な言語モデルで使用されるプロンプトは、単純なテキストクエリの場合もあります。これらは提供できる詳細の量によって品質が測定されます。これらは、テキスト要約、質問と回答、コード生成、情報抽出などに使用されます。 多くの指示が含まれる複雑な問題を解決するためにLLMが使用されるため、詳細であることが重要です。基本的なプロンプトのいくつかの例を見てみましょう: プロンプト 抗生物質は、細菌感染症を治療するために使用される薬の一種です。それらは細菌を殺したり、増殖を防いだりすることで、体の免疫系が感染症と戦えるようにします。抗生物質は通常、錠剤、カプセル、液体溶液の形で経口的に摂取され、時には静脈内投与されます。抗生物質はウイルス感染症には効果がなく、不適切に使用すると抗生物質耐性が生じることがあります。 上記を2文に要約してください: この出力はQ&Aの形式で要約を表示します。 抗生物質は、細菌感染症を殺菌または増殖を防ぎ、免疫系が感染症と戦えるようにします。経口または静脈内投与され、ウイルス感染症には効果がなく、抗生物質耐性を引き起こす可能性があります。 LLMの使用例を見ました。可能性は無限です。 プロンプトを洗練させるためのヒント…
何が合成データとは?その種類、機械学習とプライバシーにおける利用例及び応用について
データサイエンスと機械学習の分野は、毎日成長しています。新しいモデルやアルゴリズムが提案されるにつれて、これらの新しいアルゴリズムとモデルには、トレーニングやテストに膨大なデータが必要となります。ディープラーニングモデルは今日では非常に人気があり、これらのモデルもデータを大量に必要とします。異なる問題文脈の大量のデータを取得することは、非常に面倒で時間がかかり、コストがかかります。データは現実のシナリオから収集されるため、セキュリティの責任とプライバシーの懸念が高まります。データの大部分はプライバシー法や規制によって保護されており、組織間や場合によっては同一組織の異なる部門間でのデータ共有や移動を妨げ、実験や製品のテストを遅らせる原因となります。それでは、この問題をどのように解決できるでしょうか?どのようにして、誰かのプライバシーに関する懸念を引き起こすことなく、データをよりアクセスしやすくオープンにすることができるのでしょうか? この問題の解決策は、合成データ (Synthetic data)と呼ばれるものです。 では、合成データとは何でしょうか? 合成データとは、人工的またはアルゴリズム的に生成され、実際のデータの基本的な構造と特性に近いものです。合成データが良ければ、実際のデータと区別がつかないほどです。 合成データの種類は何種類あるのでしょうか? この質問の答えは非常にオープンエンドで、データは多様な形をとることができますが、主に以下のようなものがあります。 テキストデータ 音声またはビジュアルデータ (たとえば画像、動画、音声) 表形式のデータ 機械学習における合成データの利用例 ここでは、上記の3つのタイプの合成データの利用例について説明します。 NLPモデルのトレーニングに合成テキストデータを使用する 合成データは、自然言語処理の分野で応用されています。たとえば、AmazonのAlexa AIチームは、既存の顧客インタラクションデータが存在しない場合や十分でない場合に、NLUシステム (自然言語理解) のトレーニングセットを完成させるために合成データを使用しています。 ビジョンアルゴリズムのトレーニングに合成データを使用する ここでは、広く使用されているユースケースについて説明します。たとえば、画像内の顔の数を検出または数えるアルゴリズムを開発したい場合を考えてみましょう。ジェネレーティブネットワーク (GAN) またはその他の生成ネットワークを使用して、実際には存在しない現実的な人間の顔、つまり顔を生成してモデルをトレーニングすることができます。また、誰かのプライバシーを侵害することなく、これらのアルゴリズムから必要なだけデータを生成することができます。しかし、実際のデータには個人の顔が含まれているため、プライバシーポリシーによってそのデータを使用することが制限されています。 別のユースケースとして、シミュレートされた環境で強化学習を行うことが考えられます。たとえば、オブジェクトをつかんで箱に入れるために設計されたロボットアームをテストしたい場合、この目的のために強化学習アルゴリズムが設計されます。強化学習アルゴリズムが学習する方法は、実験を行うことです。実際のシナリオで実験を行うことは非常にコストがかかり、時間がかかり、異なる実験を行うことが制限されます。しかし、シミュレートされた環境で実験を行う場合、実験を設定するのは比較的安価で、ロボットアームのプロトタイプが必要なくなります。…
NVIDIA H100 GPUがMLPerfベンチマークのデビューで生成型AIの標準を設定
主要のユーザーと業界標準のベンチマークによれば、NVIDIAのH100 Tensor Core GPUは特に生成型AIを駆動する大規模言語モデル(LLMs)において、最高のAIパフォーマンスを提供しています。 H100 GPUは、最新のMLPerfトレーニングベンチマークのすべての8つのテストで新記録を樹立し、生成型AIの新しいMLPerfテストでも優れた性能を発揮しました。この優れた性能は、単一のアクセラレータあたりの性能だけでなく、大規模サーバーでの性能も提供されています。 たとえば、スタートアップのInflection AIとGPUアクセラレートワークロードに特化したクラウドサービスプロバイダーであるCoreWeaveが共同開発した3,584台のH100 GPUを搭載した商用クラスターでは、GPT-3ベースの大規模トレーニングベンチマークを11分以下で完了しました。 「当社のお客様は、数千のH100 GPUが高速で低レイテンシのInfiniBandネットワーク上で稼働しているため、現在スケールで最先端の生成型AIおよびLLMを構築しています。」と、CoreWeaveの共同設立者でありCTOであるブライアン・ベンチュロ氏は述べています。「NVIDIAとの共同MLPerfサブミッションにより、お客様が享受できる優れたパフォーマンスが明確に示されました。」 本日利用可能な最高のパフォーマンス Inflection AIは、そのパフォーマンスを活用して、パーソナルAI「Pi」の先進的なLLMを構築しました。同社はAIスタジオとして、ユーザーが簡単で自然な方法で対話できるパーソナルAIを作成します。 「当社の最先端の大規模言語モデルは、CoreWeaveの強力なH100 GPUネットワークでトレーニングされたものであり、誰でも今日からパーソナルAIの力を体験できます。」と、Inflection AIのCEOであるムスタファ・スレイマン氏は述べています。 2022年初頭にMustafaとDeepMindのKarén Simonyan、Reid Hoffmanが共同設立したInflection AIは、NVIDIA GPUを使用して世界で最大のコンピューティングクラスターの1つを構築するためにCoreWeaveと協力することを目指しています。 トップパフォーマンスが利用可能に これらのユーザー体験は、今日発表されたMLPerfベンチマークで示されたパフォーマンスを反映しています。…
Twitterの後
問題を抱えたTwitterに挑戦するために、新しいソーシャルアプリが現れている
テーブル内の重複した値を見つけるための最高のSQLトリック2つ
まず、重複行の基準を定義してくださいテーブルから重複レコードを見つける方法の一つは、GROUP BYとHAVINGですもう一つの方法はROW_NUMBER()です詳細はこちらをご覧ください
Pythonを使用して北極の氷の傾向を分析する
Pythonは、データサイエンスのための卓越したプログラミング言語として、計測データを収集・クリーニング・解釈することが容易になりますPythonを使って、予測をバックテストし、モデルを検証することができますそして...
AWS CDKを介してAmazon SageMakerロールマネージャーを使用して、カスタム権限を数分で定義します
機械学習(ML)の管理者は、MLワークロードのセキュリティと完全性を維持する上で重要な役割を果たしています彼らの主な焦点は、ユーザーが最高のセキュリティで操作し、最小特権の原則に従うことを確認することですただし、異なるユーザーペルソナの多様なニーズに対応し、適切な許可ポリシーを作成することは、時にアジリティを妨げることがあります[…]
ビジュアライゼーションのためにデータを準備する方法
次のデータ可視化プロジェクトを始めたいですか? まずはデータクリーニングに親しんで始めましょうデータクリーニングは、どんなデータパイプラインにおいても重要なステップであり、生の「汚れた」データを変換します...
レコメンデーションシステムにおけるディープラーニング:入門
レコメンダーシステムは、現在最も急速に進化している産業用機械学習アプリケーションの一つですビジネス的な観点から見れば、これは驚くべきことではありませんより良いレコメンデーションはより多くのユーザーをもたらしますそれは...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.