メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求

「美容とファッションのエキスパートがおすすめするメタAI研究者の提案:アップサンプリング、トレーニングテクニック、そして深い探求でGPT-3.5-Turbo-16kを凌駕する高度な長文脈LLMs」

“`html

大規模言語モデル(LLM)の出現は、自然言語処理における画期的な進展を示しています。これらのモデルは膨大な量のデータで訓練され、膨大な計算リソースを活用することで、人間のデジタル世界との相互作用を変革することを約束しています。スケールと迅速な展開を通じて進化することで、これらのモデルの潜在的なユースケースはますます複雑になります。例えば、知識豊富な文書の分析、より本物らしく魅力的なチャットボット体験の向上、コーディングやデザインなどの反復的な創造的プロセスを支援するといったタスクに彼らは能力を拡張しています。

この進化を可能にする重要な特徴の一つは、長い文脈の入力を効果的に処理する能力です。つまり、LLMは適切な前文脈に基づいてテキストを理解し、生成することができる必要があります。これは、長い文書、マルチターンの会話、または複雑な問題解決に関わるタスクに特に重要です。

しかし、ここまでのところ、長文脈の機能が強力なLLMは主にプロプライエタリなLLM API経由で利用可能であり、研究者や開発者が利用できる解決策にはギャップがありました。価値のあるオープンソースの長文脈モデルは存在しますが、評価ではしばしば不十分でした。通常、これらのモデルは言語モデリングの損失と合成タスクに焦点を当てますが、これは情報提供にはなりますが、多様な現実世界のシナリオにおいて効果的であることを包括的に示すものではありません。さらに、これらのモデルの多くは、標準的な短文脈のタスクでも高いパフォーマンスを維持する必要性を見落とし、これらの評価を回避したり、劣った結果を報告したりしています。

これらの課題に対応するために、新しいメタ研究では、すべての既存のオープンソースモデルを凌駕する長文脈LLM構築手法を提案しています。この手法は、LLAMA 2のチェックポイントから継続的な事前訓練を行い、追加の4000億トークンを使用して広範な訓練シーケンスを構築します。これらのシーケンスは、長文脈の理解の要点を捉えるように設計されています。この研究では、32,768トークンのシーケンスで訓練された小型の7B/13Bモデルと、16,384トークンのシーケンスで訓練された大型の34B/70Bモデルなど、さまざまなモデルバリアントを提供しています。

この手法の特徴は、評価プロセスの徹底さです。以前の研究とは異なり、チームはモデルのパフォーマンスを複数の側面で評価しています。これには、言語モデリングの能力、合成タスクのパフォーマンス、そして何よりも重要なことに、さまざまな実世界のベンチマークでの能力の評価が含まれます。彼らは長文脈と短文脈のタスクをカバーし、モデルの能力の包括的なビューを提供しています。

研究の結果は、スケーリングの挙動がモデルの能力を一貫して高めることを示し、文脈の長さをLLMのさらなる拡大の重要な要素として強調しています。

研究ベンチマークにおけるLLAMA 2と比較して、この手法では長文脈のタスクにおいて大きな改善が見られ、標準的な短文脈のタスクでも僅かな向上があります。これらの改善は、コーディング、数学的問題解決、知識関連のタスクにおいて特に顕著です。さらに、チームは人間によって注釈付けられたデータなしで達成される連続的に事前訓練された長いモデルの命令微調整のための簡単で費用効果の高い手順を探索しています。その結果、この手法は一連の長文脈ベンチマークでgpt-3.5-turbo-16kのパフォーマンスを凌駕するチャットモデルを実現しています。

全体として、この手法はプロプライエタリとオープンソースの長文脈LLMのギャップを埋めるための大きな進歩です。優れたパフォーマンスを持つモデル、さまざまな側面にわたる包括的な評価、および能力に影響を与える要素のより深い理解を提供しています。最終的には、研究者や開発者が長文脈LLMの潜在能力を広範なアプリケーションに活用することを可能にしたいと考えています。これにより、自然言語処理の新時代が訪れることになります。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AI 幻覚の危険性:課題と影響の解明

「AIの幻覚に魅了される探求に乗り出しましょう ― その複雑な原因を解明し、結果をナビゲートし、重要な保護策を見つけましょ...

データサイエンス

「Amazon SageMaker Data WranglerでAWS Lake Formationを使用して細粒度のデータアクセス制御を適用する」

「SageMaker Data Wranglerは、Amazon EMRと組み合わせてLake Formationを利用できるようになり、この細かいデータアクセス制...

コンピュータサイエンス

「ナノフォトニクスがカメラレンズを平らにする」

「ナノスケールメタ光学は、スマートフォンから隆起を取り除きながら、より良いイメージングの可能性を秘めています」

データサイエンス

ランダムフォレストの解釈

近年、大型言語モデルについて大いに盛り上がりがありますが、それは従来の機械学習手法が絶滅の運命を辿るべきだということ...

機械学習

「ガードレールでLLMを保護する」

大規模言語モデル(LLM)アプリケーションの使用が一般化し、より大規模な企業に拡大するにつれて、本番環境における効果的な...