新しいAI研究が「SWIM-IR」をリリース!2800万対33の言語にわたる大規模な合成多言語検索データセット

新たなAI研究により「SWIM-IR」がリリースされました!2800万対33の言語を網羅した大規模な合成多言語検索データセット

Google Research、Google DeepMind、そしてウォータールー大学の研究者は、多言語リトリーバルにおける限られた人間によってラベル付けされたトレーニングデータの課題に対処するため、33の言語をカバーする合成リトリーバルトレーニングデータセットであるSWIM-IRを紹介しています。SAP(要約してから尋ねるプロンプティング)の手法を活用して、SWIM-IRは人間の監督なしで多言語密なリトリーバルモデルの合成ファインチューニングを可能にするために構築されています。SWIM-IRでトレーニングされたSWIM-Xモデルは、XOR-Retrieve、XTREME-UP、およびMIRACLを含むさまざまなベンチマークで人間によって監督された厚いリトリーバルモデルと競争力を示しています。

この研究は、多言語密なリトリーバルモデルの限定された成功に対処し、非英語の言語に対する十分な監督トレーニングデータの不足が原因であるとしています。この合成データセットは、多言語密なリトリーバルモデルのファインチューニングを可能にし、XOR-Retrieve、XTREME-UP、およびMIRACLなどのベンチマークで評価されています。その結果、合成データセットによるトレーニングは、人間によって監督されたモデルと競争力のあるパフォーマンスを示し、高価な人間によるラベル付けトレーニングデータの代替手段としての可能性を示しています。

SWIM-IRは、SAP技術を用いて生成された33言語にわたる合成リトリーバルトレーニングデータセットです。SWIM-IRを用いて、この研究ではDense Passage Retrieval(DPR)モデルを適応し、多言語T5-baseチェックポイントからの初期化と英語MS MARCOデータセットでのファインチューニングを行うことで、mContrieverとmDPRのゼロショットベースラインを再現します。mC4データセットでの事前学習と、バッチ内のネガティブサンプルに対する相反損失の利用により、研究者はクロス言語クエリ生成にPaLM 2 Smallモデルを使用しています。

SWIM-IRからの合成トレーニングデータを使用したSWIM-Xモデルは、多言語密なリトリーバルタスクで競争力のあるパフォーマンスを示しています。SWIM-X(7M)は、XOR-RetrieveベンチマークのRecall5ktで最良のファインチューニングモデルであるmContriever-Xを7.1ポイント上回ります。さらに、限定予算ベースラインのSWIM-X(500k)は、mContriever-Xを3.6ポイント上回ります。SWIM-X(180K)は、MIRACLベンチマークで競争力があり、nDCG10で最良のゼロショットモデルを6.6ポイント上回りますが、ハードネガティブを持つ人間によって監督されたトレーニングペアを持つmContriever-Xには及びません。合成ベースラインのSWIM-X(120K)およびSWIM-X(120K)MTは、Recall5ktの点で既存のモデルを上回る優れた結果を示しています。この研究では、SWIM-IRによるハードネガティブのサンプリングなど、最適なトレーニング技術の重要性を強調し、合成モデルのパフォーマンスをさらに向上させる必要性を指摘しています。

研究で使用されたSWIM-IRデータセットには、文脈不明確化、コードスイッチング、パッセージの品質と長さ、LLM生成時の事実の不一致などの制約があります。この研究は、LLMが情報源に対して十分な根拠を持たないテキストを生成する可能性があり、生成された出力における誤情報や幻想のリスクをもたらすことを認識しています。これらの制限は生成されたクエリの品質と正確さに影響を与えるかもしれませんが、直接的には下流の多言語リトリーバルタスクには影響を与えません。ただし、この研究では、SAPアプローチやファインチューニングプロセスなどの手法の制約については詳細に議論されていません。

SWIM-IRは、複数の言語で情報を含んだクエリを生成するためにSAPアプローチを使用して作成された合成多言語リトリーバルトレーニングデータセットです。33の言語で28百万のクエリ-パッセージのトレーニングペアを提供するSWIM-IRは、人間によるラベル付けトレーニングデータを必要とせずに多言語密なリトリーバルモデルのファインチューニングを容易にします。その結果、SWIM-Xモデルは、クロス言語および単言語のベンチマークで既存のリコールおよび平均相互ランクモデルを上回る競争力のあるパフォーマンスを発揮します。これにより、高価な人間によるラベル付けリトリーバルトレーニングデータの費用対効果の高い代替手段としてのSWIM-IRの可能性が強調され、堅牢な多言語密なリトリーバルモデルの開発が可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more