メタAI研究者が高度な長文脈LLMsを提案
メタAI研究者が長文脈LLMsをさらに進化させた提案
新しい論文では、Meta AIの研究者たちは先進的な長いコンテキストのLLMsを提案し、堅牢な長いコンテキストの能力を持つLLMsへのアクセスの不足を解消することを目指しています。これまでは、これは主に所有権のあるAPIを介して利用できました。
問題は、この方法ではオープンソースのソリューションを求める研究者や開発者には空白が残ります。オープンソースの長いコンテキストのモデルは存在しますが、しばしば厳密な評価で不足しており、現実のシナリオを十分に反映しない言語モデリングの損失と合成タスクに重点が置かれています。
これらの課題に対処するため、Meta AIは新しい方法論を進めています。それはLLAMA 2のチェックポイントからの継続的な事前トレーニングを基礎にし、追加の4000億のトークンを組み入れて、長いコンテキストの理解の本質を捉えた広範なトレーニングシーケンスを作成します。
- 「Amazon SageMaker Data Wranglerを使用して、Amazon Personalizeのデータを準備する」
- デコード Transformersを平易な英語で説明します
- 「なぜ自宅でPythonを使って10億桁の円周率を計算することがほぼ不可能なのか」
ここまでの結果は、32,768トークンのシーケンスでトレーニングされたより小さな7B/13Bモデルから、16,384トークンのシーケンスを使用した大きな34B/70Bモデルの範囲に及びます。このアプローチの特徴は、その評価プロセスの徹底さです。
先行研究とは異なり、Meta Researchはモデルを言語モデリングの能力、合成タスク、および現実のベンチマークを含む複数の側面で評価します。長いコンテキストと短いコンテキストのタスクの両方をカバーし、モデルの能力を包括的に調査します。
調査結果は、モデルのスケーリング動作を裏付け、より広範なコンテキストでの一貫した性能向上を示しています。コンテキストの長さは、LLMsのスケーリングの重要な要素となっています。
研究のベンチマークに比べて、この方法は長いコンテキストのタスクでは大幅な進歩を遂げ、標準的な短いコンテキストのタスクでもわずかな改善をもたらします。特に、コーディング、数学問題の解決、および知識に関連するタスクに優れています。
この研究が探求するもう一つのアプローチは、コスト効果の高い手法を見つけて、さまざまな長いコンテキストのベンチマークでgpt-3.5-turbo-16kを上回るチャットモデルを実現することです。
論文と結果に基づくと、Meta Researchのアプローチは、所有権とオープンソースの長いコンテキストのLLMsの間の隔たりを埋めるとされています。優れたパフォーマンス、包括的な評価、およびモデルの能力を形作る要素に対する洞察を提供すると主張しています。
この研究によって、研究者や開発者は長いコンテキストのLLMsのポテンシャルを最大限に活用することができ、それによってNLPに基づく研究の新たな時代をもたらすことができるでしょう。Meta AIは、より大きな民主主義と高度な言語モデルやツールへのアクセスを推進することを目指しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles