メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求

「美容とファッションのエキスパートがおすすめするメタAI研究者の提案:アップサンプリング、トレーニングテクニック、そして深い探求でGPT-3.5-Turbo-16kを凌駕する高度な長文脈LLMs」

“`html

大規模言語モデル(LLM)の出現は、自然言語処理における画期的な進展を示しています。これらのモデルは膨大な量のデータで訓練され、膨大な計算リソースを活用することで、人間のデジタル世界との相互作用を変革することを約束しています。スケールと迅速な展開を通じて進化することで、これらのモデルの潜在的なユースケースはますます複雑になります。例えば、知識豊富な文書の分析、より本物らしく魅力的なチャットボット体験の向上、コーディングやデザインなどの反復的な創造的プロセスを支援するといったタスクに彼らは能力を拡張しています。

この進化を可能にする重要な特徴の一つは、長い文脈の入力を効果的に処理する能力です。つまり、LLMは適切な前文脈に基づいてテキストを理解し、生成することができる必要があります。これは、長い文書、マルチターンの会話、または複雑な問題解決に関わるタスクに特に重要です。

しかし、ここまでのところ、長文脈の機能が強力なLLMは主にプロプライエタリなLLM API経由で利用可能であり、研究者や開発者が利用できる解決策にはギャップがありました。価値のあるオープンソースの長文脈モデルは存在しますが、評価ではしばしば不十分でした。通常、これらのモデルは言語モデリングの損失と合成タスクに焦点を当てますが、これは情報提供にはなりますが、多様な現実世界のシナリオにおいて効果的であることを包括的に示すものではありません。さらに、これらのモデルの多くは、標準的な短文脈のタスクでも高いパフォーマンスを維持する必要性を見落とし、これらの評価を回避したり、劣った結果を報告したりしています。

これらの課題に対応するために、新しいメタ研究では、すべての既存のオープンソースモデルを凌駕する長文脈LLM構築手法を提案しています。この手法は、LLAMA 2のチェックポイントから継続的な事前訓練を行い、追加の4000億トークンを使用して広範な訓練シーケンスを構築します。これらのシーケンスは、長文脈の理解の要点を捉えるように設計されています。この研究では、32,768トークンのシーケンスで訓練された小型の7B/13Bモデルと、16,384トークンのシーケンスで訓練された大型の34B/70Bモデルなど、さまざまなモデルバリアントを提供しています。

この手法の特徴は、評価プロセスの徹底さです。以前の研究とは異なり、チームはモデルのパフォーマンスを複数の側面で評価しています。これには、言語モデリングの能力、合成タスクのパフォーマンス、そして何よりも重要なことに、さまざまな実世界のベンチマークでの能力の評価が含まれます。彼らは長文脈と短文脈のタスクをカバーし、モデルの能力の包括的なビューを提供しています。

研究の結果は、スケーリングの挙動がモデルの能力を一貫して高めることを示し、文脈の長さをLLMのさらなる拡大の重要な要素として強調しています。

研究ベンチマークにおけるLLAMA 2と比較して、この手法では長文脈のタスクにおいて大きな改善が見られ、標準的な短文脈のタスクでも僅かな向上があります。これらの改善は、コーディング、数学的問題解決、知識関連のタスクにおいて特に顕著です。さらに、チームは人間によって注釈付けられたデータなしで達成される連続的に事前訓練された長いモデルの命令微調整のための簡単で費用効果の高い手順を探索しています。その結果、この手法は一連の長文脈ベンチマークでgpt-3.5-turbo-16kのパフォーマンスを凌駕するチャットモデルを実現しています。

全体として、この手法はプロプライエタリとオープンソースの長文脈LLMのギャップを埋めるための大きな進歩です。優れたパフォーマンスを持つモデル、さまざまな側面にわたる包括的な評価、および能力に影響を与える要素のより深い理解を提供しています。最終的には、研究者や開発者が長文脈LLMの潜在能力を広範なアプリケーションに活用することを可能にしたいと考えています。これにより、自然言語処理の新時代が訪れることになります。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ライトオンAIは、Falcon-40Bをベースにした新しいオープンソースの言語モデル(LLM)であるAlfred-40B-0723をリリースしました

画期的な動きとして、LightOnは誇りを持って、Falcon-40Bに基づく革新的なオープンソースの言語モデル(LLM)であるAlfred-40...

AI研究

「MIT研究者がLILOを導入:プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」

ビッグ言語モデル(LLM)は、プログラムのさまざまな文脈でプログラムする能力がますます高度になっており、部分的に書かれた...

データサイエンス

アマゾンの研究者たちは、「HandsOff」という手法を紹介しましたこの手法は合成画像データの手動注釈を不要にするものです

機械学習(ML)モデルをコンピュータビジョンタスクに使用する際、ラベル付きのトレーニングデータに大いに依存しています。...

機械学習

「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、...

AI研究

スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシー...

AIテクノロジー

「ジェネレーティブAIの企業導入」

「こんにちは、私はマイケルです2018年からエンタープライズAIの導入に没頭しており、私たちはAi4というAIカンファレンスを開...