Learn more about Search Results Contriever
- You may be interested
- 「Non-engineers guide LLaMA 2チャットボ...
- 私は5ヶ月間、毎日ChatGPTを使用しました...
- ローカルで質問応答(QA)タスク用にLLMを...
- ショッピファイの製品推奨アプリに生成AI...
- 物議を醸している:GrokがOpenAIのコード...
- 「データストーリーテリングとアナリティ...
- ミストラルの最先端言語モデル、Mixtral 8...
- Hugging Faceを使用してWav2Vec2を英語音...
- Google at ACL 2023′ ACL 2023にお...
- 「T2Iアダプタを使用した効率的で制御可能...
- スタビリティAIがStable Diffusion XL 1.0...
- 数学者たちは、三体問題に対して12,000の...
- クラウドソーシングされたフィードバック...
- 「GeForce NOWが大いに盛り上がり、9月に...
- 会社独自のChatGPTを開発するには、技術の...
新しいAI研究が「SWIM-IR」をリリース!2800万対33の言語にわたる大規模な合成多言語検索データセット
Google Research、Google DeepMind、そしてウォータールー大学の研究者は、多言語リトリーバルにおける限られた人間によってラベル付けされたトレーニングデータの課題に対処するため、33の言語をカバーする合成リトリーバルトレーニングデータセットであるSWIM-IRを紹介しています。SAP(要約してから尋ねるプロンプティング)の手法を活用して、SWIM-IRは人間の監督なしで多言語密なリトリーバルモデルの合成ファインチューニングを可能にするために構築されています。SWIM-IRでトレーニングされたSWIM-Xモデルは、XOR-Retrieve、XTREME-UP、およびMIRACLを含むさまざまなベンチマークで人間によって監督された厚いリトリーバルモデルと競争力を示しています。 この研究は、多言語密なリトリーバルモデルの限定された成功に対処し、非英語の言語に対する十分な監督トレーニングデータの不足が原因であるとしています。この合成データセットは、多言語密なリトリーバルモデルのファインチューニングを可能にし、XOR-Retrieve、XTREME-UP、およびMIRACLなどのベンチマークで評価されています。その結果、合成データセットによるトレーニングは、人間によって監督されたモデルと競争力のあるパフォーマンスを示し、高価な人間によるラベル付けトレーニングデータの代替手段としての可能性を示しています。 SWIM-IRは、SAP技術を用いて生成された33言語にわたる合成リトリーバルトレーニングデータセットです。SWIM-IRを用いて、この研究ではDense Passage Retrieval(DPR)モデルを適応し、多言語T5-baseチェックポイントからの初期化と英語MS MARCOデータセットでのファインチューニングを行うことで、mContrieverとmDPRのゼロショットベースラインを再現します。mC4データセットでの事前学習と、バッチ内のネガティブサンプルに対する相反損失の利用により、研究者はクロス言語クエリ生成にPaLM 2 Smallモデルを使用しています。 SWIM-IRからの合成トレーニングデータを使用したSWIM-Xモデルは、多言語密なリトリーバルタスクで競争力のあるパフォーマンスを示しています。SWIM-X(7M)は、XOR-RetrieveベンチマークのRecall5ktで最良のファインチューニングモデルであるmContriever-Xを7.1ポイント上回ります。さらに、限定予算ベースラインのSWIM-X(500k)は、mContriever-Xを3.6ポイント上回ります。SWIM-X(180K)は、MIRACLベンチマークで競争力があり、nDCG10で最良のゼロショットモデルを6.6ポイント上回りますが、ハードネガティブを持つ人間によって監督されたトレーニングペアを持つmContriever-Xには及びません。合成ベースラインのSWIM-X(120K)およびSWIM-X(120K)MTは、Recall5ktの点で既存のモデルを上回る優れた結果を示しています。この研究では、SWIM-IRによるハードネガティブのサンプリングなど、最適なトレーニング技術の重要性を強調し、合成モデルのパフォーマンスをさらに向上させる必要性を指摘しています。 研究で使用されたSWIM-IRデータセットには、文脈不明確化、コードスイッチング、パッセージの品質と長さ、LLM生成時の事実の不一致などの制約があります。この研究は、LLMが情報源に対して十分な根拠を持たないテキストを生成する可能性があり、生成された出力における誤情報や幻想のリスクをもたらすことを認識しています。これらの制限は生成されたクエリの品質と正確さに影響を与えるかもしれませんが、直接的には下流の多言語リトリーバルタスクには影響を与えません。ただし、この研究では、SAPアプローチやファインチューニングプロセスなどの手法の制約については詳細に議論されていません。 SWIM-IRは、複数の言語で情報を含んだクエリを生成するためにSAPアプローチを使用して作成された合成多言語リトリーバルトレーニングデータセットです。33の言語で28百万のクエリ-パッセージのトレーニングペアを提供するSWIM-IRは、人間によるラベル付けトレーニングデータを必要とせずに多言語密なリトリーバルモデルのファインチューニングを容易にします。その結果、SWIM-Xモデルは、クロス言語および単言語のベンチマークで既存のリコールおよび平均相互ランクモデルを上回る競争力のあるパフォーマンスを発揮します。これにより、高価な人間によるラベル付けリトリーバルトレーニングデータの費用対効果の高い代替手段としてのSWIM-IRの可能性が強調され、堅牢な多言語密なリトリーバルモデルの開発が可能になります。
「組織のためのカスタマイズされたコーディングパートナー」
コーディングの仲間としての生成的AIモデルは、主に公開されているソースコードと自然言語テキストで訓練されています大規模なトレーニングコーパスのため、これらのモデルは一般的に使用される機能のためのコードを生成することができますが、これらのモデルはプライベートリポジトリ内のコードや開発時に強制される関連するコーディングスタイルには無知です
「最も適応能力の高い生存者 コンパクトな生成型AIモデルは、コスト効率の高い大規模AIの未来です」
人工知能(AI)モデルの複雑さと計算量が急速に成長した10年後の2023年は、効率と生成型AI(GenAI)の広範な応用に焦点を移す節目となりますその結果、...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.