メタAIは、122の言語に対応した初の並列読解評価ベンチマーク「BELEBELE」をリリースしました

MetaAI has released the first parallel reading comprehension evaluation benchmark, 'BELEBELE', which supports 122 languages.

多言語モデルのテキスト理解能力を評価する上での重要な課題は、高品質で同時的な評価基準の不足です。FLORES-200などの高カバレッジの自然言語処理データセットがありますが、それらは主に機械翻訳に使用されています。100以上の言語が理解や生成テキストサービスを使用していますが、ラベル付きデータの不足は、ほとんどの言語で効果的なシステムを構築する上で重要な障壁となっています。

低リソース言語のためのNLPシステムの効率的かつ成功した開発を可能にするためには、LLM以外の重要な科学研究が必要です。多くのモデリングアプローチが言語に依存しないと主張していますが、それらの適用範囲はしばしば一部の言語でのみテストされます。

Meta AI、Abridge AI、およびReka AIによる新たな研究では、122の異なる言語バリエーションを横断して自然言語理解システムを評価するための重要なベンチマークであるBELEBELEが公開されました。データセットの各488パラグラフは、データセット全体の900の質問に対応しています。質問は言語理解能力の異なるモデルを区別し、注意深く作成されています。これらの質問は高い知識や推論を必要とはしませんが、一般化可能なNLUモデルを奨励し、バイアスのあるモデルを故意にペナルティを与えるように設計されています。英語で行われる質問は人間によってほぼ完璧な精度で回答することができます。さまざまなモデルの出力は、これがよく知られたLLMベンチマークであるMMLUと同様の識別的なNLUの課題であることを示しています。

BELEBELEシステムは、その種としては初めてであり、すべての言語で並列になっています。これにより、言語間でモデルの性能を直接比較することができます。データセットには29の文字システムと27の言語ファミリが含まれており、さまざまなリソースの利用可能性と言語の多様性を表しています。ヒンディー語、ウルドゥー語、ベンガル語、ネパール語、シンハラ語のローマ字化バージョンのための最初の自然言語処理(NLP)ベンチマークの一つは、これらの7つの言語を2つの異なるスクリプトで書かれたものに基づいています。

データセットの並列性により、さまざまな言語間シナリオでクロスリンガルなテキスト表現を評価することができ、単言語および多言語モデルの評価に使用することができます。タスクは、比較可能なQAデータセットからトレーニングセットを組み合わせてフルファインチューニングによって評価することができます。研究者たちは、多言語間および英語と他の言語間の翻訳のために多数のマスク言語モデル(MLM)を使用しています。ファイブショットのコンテキスト学習とゼロショット(言語内および翻訳テスト)評価を使用して、LLMのさまざまなモデルを比較しています。

研究結果は、英語中心のLLMが30以上の言語に広がり、VoAGIおよび低リソース言語で訓練されたモデルが大きな語彙サイズとバランスの取れた事前トレーニングデータの恩恵を最も受けることを示しています。

チームは、彼らの研究が既存のモデルアーキテクチャとトレーニング方法を改善するのに役立つことを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データから洞察へ:データ分析のための生成AIの活用

「生成AIはデータ分析を革新し、生成AIのデータ分析への影響を探求し、組織が情報に基づいた意思決定にデータを活用する方法...

機械学習

「AIがクリーンエネルギーの未来を支える方法」

人工知能は、最先端の技術と共に太陽と風の力を利用して世界を改善しています。 I AM AI ビデオシリーズの最新エピソードでは...

データサイエンス

自然言語処理のタクソノミー

「異なる研究分野と最近の自然言語処理(NLP)の進展の概要」

AI研究

GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント

Googleは、Google Labsから最新の実験的な提供であるNotebookLMを発表しています。以前はProject Tailwindとして知られていた...

AIテクノロジー

イーロン・マスクが「Grok」を紹介:反抗的なダッシュのあるおしゃべりAIチャットボット

テック界は興奮に包まれています。スペースXやテスラなど画期的な事業の立案者であるイーロン・マスクが、彼の新しいAI会社、...

機械学習

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

プロンプトエンジニアリングの台頭や、言語モデルの大規模な成果により、私たちの問いに対する応答を生成する際の大変な成果...