メタAIは、122の言語に対応した初の並列読解評価ベンチマーク「BELEBELE」をリリースしました

MetaAI has released the first parallel reading comprehension evaluation benchmark, 'BELEBELE', which supports 122 languages.

多言語モデルのテキスト理解能力を評価する上での重要な課題は、高品質で同時的な評価基準の不足です。FLORES-200などの高カバレッジの自然言語処理データセットがありますが、それらは主に機械翻訳に使用されています。100以上の言語が理解や生成テキストサービスを使用していますが、ラベル付きデータの不足は、ほとんどの言語で効果的なシステムを構築する上で重要な障壁となっています。

低リソース言語のためのNLPシステムの効率的かつ成功した開発を可能にするためには、LLM以外の重要な科学研究が必要です。多くのモデリングアプローチが言語に依存しないと主張していますが、それらの適用範囲はしばしば一部の言語でのみテストされます。

Meta AI、Abridge AI、およびReka AIによる新たな研究では、122の異なる言語バリエーションを横断して自然言語理解システムを評価するための重要なベンチマークであるBELEBELEが公開されました。データセットの各488パラグラフは、データセット全体の900の質問に対応しています。質問は言語理解能力の異なるモデルを区別し、注意深く作成されています。これらの質問は高い知識や推論を必要とはしませんが、一般化可能なNLUモデルを奨励し、バイアスのあるモデルを故意にペナルティを与えるように設計されています。英語で行われる質問は人間によってほぼ完璧な精度で回答することができます。さまざまなモデルの出力は、これがよく知られたLLMベンチマークであるMMLUと同様の識別的なNLUの課題であることを示しています。

BELEBELEシステムは、その種としては初めてであり、すべての言語で並列になっています。これにより、言語間でモデルの性能を直接比較することができます。データセットには29の文字システムと27の言語ファミリが含まれており、さまざまなリソースの利用可能性と言語の多様性を表しています。ヒンディー語、ウルドゥー語、ベンガル語、ネパール語、シンハラ語のローマ字化バージョンのための最初の自然言語処理(NLP)ベンチマークの一つは、これらの7つの言語を2つの異なるスクリプトで書かれたものに基づいています。

データセットの並列性により、さまざまな言語間シナリオでクロスリンガルなテキスト表現を評価することができ、単言語および多言語モデルの評価に使用することができます。タスクは、比較可能なQAデータセットからトレーニングセットを組み合わせてフルファインチューニングによって評価することができます。研究者たちは、多言語間および英語と他の言語間の翻訳のために多数のマスク言語モデル(MLM)を使用しています。ファイブショットのコンテキスト学習とゼロショット(言語内および翻訳テスト)評価を使用して、LLMのさまざまなモデルを比較しています。

研究結果は、英語中心のLLMが30以上の言語に広がり、VoAGIおよび低リソース言語で訓練されたモデルが大きな語彙サイズとバランスの取れた事前トレーニングデータの恩恵を最も受けることを示しています。

チームは、彼らの研究が既存のモデルアーキテクチャとトレーニング方法を改善するのに役立つことを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AIニュース

OpenAIのAPIとBubbleを使用した4つのアプリのアイデア

これが、AIとノーコードを組み合わせて、人々が愛するアプリを作成する方法です

データサイエンス

「変化の風を操る:2024年の主要なテクノロジートレンド」

AIの進歩からインフラのイノベーション、メールセキュリティの要件など、将来の展望を把握し、組織を戦略的に導くための理解...

AI研究

「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」

人工知能はほぼすべての可能な分野に進出しています。この領域では広範な研究が行われています。私たちはまだまだ発見すべき...

人工知能

「ChatGPTとZapierでTwitterの成長を自動化する」

「忙しい時でも、Twitterの観客との関係を維持しましょう」

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...