NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained

「NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained」

NvidiaとIllinois大学の研究者は、「Retro 48B」という以前の検索増強モデル(Retro(7.5Bパラメータ)など)よりも遥かに大きな言語モデルを紹介しました。Retro 48Bは広範なコーパスでリトリーバルを使って事前学習され、パープレキシティが改善されます。InstructRetroのエンコーダは抽出されることができ、継続的な検索増強の事前学習が質問応答においてデコーダーのパフォーマンスを向上させることを示唆しています。

検索増強言語モデルは、事前学習および推論中に開放領域の質問応答に利益をもたらします。このアプローチにより、モデルのパープレキシティが低下し、事実性が向上し、ファイントゥーニング後のタスクパフォーマンスが向上します。既存の検索増強モデルはデコーダーオンリーモデルと比較してサイズが制約されており、インストラクションチューニング後のゼロショットの汎用性が制限されています。自然言語理解に重要なインストラクションチューニングは、FLAN、OpenAssistant、Dollyなどの高品質のデータセットからのサポートを得ており、チャットや質問応答のタスクにおいて優れたパフォーマンスを実現しています。

Retroなどのリトリーバルを使って言語モデルを事前学習することは、パープレキシティの低下と事実の正確性の向上において有望な成果を示しています。ただし、既存の検索増強モデルはより多くのパラメータとトレーニングデータが必要であり、大規模な言語モデルの一般化におけるタスクパフォーマンスに影響を及ぼします。この研究では、43B GPTモデルに追加のトークンを使って事前学習を続けることにより、最大の検索増強モデルであるRetro 48Bを紹介しています。このプロセスから得られたInstructRetroは、従来のGPTモデルと比較してゼロショットの質問応答を大幅に改善します。エンコーダを抽出した場合でも、InstructRetroのデコーダーは同様の結果を達成し、質問応答におけるコンテキスト統合のための検索増強事前学習の効果を示しています。

この研究では、GPTモデルを事前学習してRetro 48Bを作成し、ゼロショットの質問応答能力を向上させるために指示を与え、さまざまなタスクでのパフォーマンスを評価するという包括的なプロセスを探求しています。最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較して幅広いオープンエンドの質問応答タスクでゼロショットの精度を大幅に向上させます。Retroの拡大アプローチによって、大規模な検索増強モデルの潜在能力が自然言語理解において示されています。

リトリーバルを使って事前学習されたRetro 48Bは、元のGPTモデルよりもパープレキシティが優れています。インストラクションチューニング後、InstructRetroと呼ばれるこのモデルは、ゼロショットの質問応答において、短文タスクでは7%、長文タスクでは10%の改善があります。驚くべきことに、InstructRetroのデコーダーバックボーンのみでも同等の結果が得られ、QAのコンテキスト統合のための事前学習の効果を示しています。

最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較してさまざまな開放型なQAタスクにおいてゼロショットの精度を大幅に向上させます。Retroの追加方法を使った検索増強事前学習により、パープレキシティが改善されます。この研究の結果は、インストラクションチューニングの前に回収を使った継続的な事前学習がQAにおいてGPTデコーダーを向上させるための有望な方向を示しています。驚くべきことに、デコーダーは同等の精度を達成しており、コンテキスト統合のための事前学習の効果を示しています。InstructRetroは長文QAタスクで優れたパフォーマンスを発揮し、検索増強事前学習の潜在能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

TensorFlowの学習率の変更方法

TensorFlowで学習率を変更するには、使用している最適化アルゴリズムに応じてさまざまなテクニックを利用することができます

データサイエンス

「2023年のトップデータウェアハウジングツール」

データウェアハウスは、データの報告、分析、および保存のためのデータ管理システムです。それはエンタープライズデータウェ...

機械学習

「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」

チューリッヒ大学の研究者たちは、GPT-4などの大規模言語モデル(LLM)が自律的なファクトチェックにおいてどのような役割を...

機械学習

「3Dで動作する魔法の筆:Blended-NeRFはニューラル放射場におけるゼロショットオブジェクト生成を行うAIモデルです」

ここ数年は、さまざまな分野でユーレカの瞬間が続いています。私たちは、革新的な手法が登場し、巨大な進歩がもたらされるの...

機械学習

マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓の...

AIニュース

「開発者向けのAIツール15個(2023年8月)」

Otter AI 人工知能を使用して、Otter.AIはユーザーにリアルタイムの会議のメモの音声文字起こしを提供し、共有可能で検索可能...