NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained
「NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained」
NvidiaとIllinois大学の研究者は、「Retro 48B」という以前の検索増強モデル(Retro(7.5Bパラメータ)など)よりも遥かに大きな言語モデルを紹介しました。Retro 48Bは広範なコーパスでリトリーバルを使って事前学習され、パープレキシティが改善されます。InstructRetroのエンコーダは抽出されることができ、継続的な検索増強の事前学習が質問応答においてデコーダーのパフォーマンスを向上させることを示唆しています。
検索増強言語モデルは、事前学習および推論中に開放領域の質問応答に利益をもたらします。このアプローチにより、モデルのパープレキシティが低下し、事実性が向上し、ファイントゥーニング後のタスクパフォーマンスが向上します。既存の検索増強モデルはデコーダーオンリーモデルと比較してサイズが制約されており、インストラクションチューニング後のゼロショットの汎用性が制限されています。自然言語理解に重要なインストラクションチューニングは、FLAN、OpenAssistant、Dollyなどの高品質のデータセットからのサポートを得ており、チャットや質問応答のタスクにおいて優れたパフォーマンスを実現しています。
Retroなどのリトリーバルを使って言語モデルを事前学習することは、パープレキシティの低下と事実の正確性の向上において有望な成果を示しています。ただし、既存の検索増強モデルはより多くのパラメータとトレーニングデータが必要であり、大規模な言語モデルの一般化におけるタスクパフォーマンスに影響を及ぼします。この研究では、43B GPTモデルに追加のトークンを使って事前学習を続けることにより、最大の検索増強モデルであるRetro 48Bを紹介しています。このプロセスから得られたInstructRetroは、従来のGPTモデルと比較してゼロショットの質問応答を大幅に改善します。エンコーダを抽出した場合でも、InstructRetroのデコーダーは同様の結果を達成し、質問応答におけるコンテキスト統合のための検索増強事前学習の効果を示しています。
- SalesForce AI研究所によって開発されたProGen:人工知能を使用したタンパク質エンジニアリングの飛躍的進歩
- プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します
- スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる
この研究では、GPTモデルを事前学習してRetro 48Bを作成し、ゼロショットの質問応答能力を向上させるために指示を与え、さまざまなタスクでのパフォーマンスを評価するという包括的なプロセスを探求しています。最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較して幅広いオープンエンドの質問応答タスクでゼロショットの精度を大幅に向上させます。Retroの拡大アプローチによって、大規模な検索増強モデルの潜在能力が自然言語理解において示されています。
リトリーバルを使って事前学習されたRetro 48Bは、元のGPTモデルよりもパープレキシティが優れています。インストラクションチューニング後、InstructRetroと呼ばれるこのモデルは、ゼロショットの質問応答において、短文タスクでは7%、長文タスクでは10%の改善があります。驚くべきことに、InstructRetroのデコーダーバックボーンのみでも同等の結果が得られ、QAのコンテキスト統合のための事前学習の効果を示しています。
最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較してさまざまな開放型なQAタスクにおいてゼロショットの精度を大幅に向上させます。Retroの追加方法を使った検索増強事前学習により、パープレキシティが改善されます。この研究の結果は、インストラクションチューニングの前に回収を使った継続的な事前学習がQAにおいてGPTデコーダーを向上させるための有望な方向を示しています。驚くべきことに、デコーダーは同等の精度を達成しており、コンテキスト統合のための事前学習の効果を示しています。InstructRetroは長文QAタスクで優れたパフォーマンスを発揮し、検索増強事前学習の潜在能力を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います
- 医療画像は黒い肌に失敗する研究者がそれを修正した
- 「ハリー・ポッターとは誰なのか?Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」
- 「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」
- 「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です
- この人工知能による調査研究は、医療領域への大規模言語モデルの包括的な概要を提供します
- このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です