NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained

「NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained」

NvidiaとIllinois大学の研究者は、「Retro 48B」という以前の検索増強モデル(Retro(7.5Bパラメータ)など)よりも遥かに大きな言語モデルを紹介しました。Retro 48Bは広範なコーパスでリトリーバルを使って事前学習され、パープレキシティが改善されます。InstructRetroのエンコーダは抽出されることができ、継続的な検索増強の事前学習が質問応答においてデコーダーのパフォーマンスを向上させることを示唆しています。

検索増強言語モデルは、事前学習および推論中に開放領域の質問応答に利益をもたらします。このアプローチにより、モデルのパープレキシティが低下し、事実性が向上し、ファイントゥーニング後のタスクパフォーマンスが向上します。既存の検索増強モデルはデコーダーオンリーモデルと比較してサイズが制約されており、インストラクションチューニング後のゼロショットの汎用性が制限されています。自然言語理解に重要なインストラクションチューニングは、FLAN、OpenAssistant、Dollyなどの高品質のデータセットからのサポートを得ており、チャットや質問応答のタスクにおいて優れたパフォーマンスを実現しています。

Retroなどのリトリーバルを使って言語モデルを事前学習することは、パープレキシティの低下と事実の正確性の向上において有望な成果を示しています。ただし、既存の検索増強モデルはより多くのパラメータとトレーニングデータが必要であり、大規模な言語モデルの一般化におけるタスクパフォーマンスに影響を及ぼします。この研究では、43B GPTモデルに追加のトークンを使って事前学習を続けることにより、最大の検索増強モデルであるRetro 48Bを紹介しています。このプロセスから得られたInstructRetroは、従来のGPTモデルと比較してゼロショットの質問応答を大幅に改善します。エンコーダを抽出した場合でも、InstructRetroのデコーダーは同様の結果を達成し、質問応答におけるコンテキスト統合のための検索増強事前学習の効果を示しています。

この研究では、GPTモデルを事前学習してRetro 48Bを作成し、ゼロショットの質問応答能力を向上させるために指示を与え、さまざまなタスクでのパフォーマンスを評価するという包括的なプロセスを探求しています。最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較して幅広いオープンエンドの質問応答タスクでゼロショットの精度を大幅に向上させます。Retroの拡大アプローチによって、大規模な検索増強モデルの潜在能力が自然言語理解において示されています。

リトリーバルを使って事前学習されたRetro 48Bは、元のGPTモデルよりもパープレキシティが優れています。インストラクションチューニング後、InstructRetroと呼ばれるこのモデルは、ゼロショットの質問応答において、短文タスクでは7%、長文タスクでは10%の改善があります。驚くべきことに、InstructRetroのデコーダーバックボーンのみでも同等の結果が得られ、QAのコンテキスト統合のための事前学習の効果を示しています。

最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較してさまざまな開放型なQAタスクにおいてゼロショットの精度を大幅に向上させます。Retroの追加方法を使った検索増強事前学習により、パープレキシティが改善されます。この研究の結果は、インストラクションチューニングの前に回収を使った継続的な事前学習がQAにおいてGPTデコーダーを向上させるための有望な方向を示しています。驚くべきことに、デコーダーは同等の精度を達成しており、コンテキスト統合のための事前学習の効果を示しています。InstructRetroは長文QAタスクで優れたパフォーマンスを発揮し、検索増強事前学習の潜在能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデ...

AIニュース

ランウェイの新しい「モーションブラシ」機能は、Gen-2においてあなたのジェネレーションに制御された動きを追加することを可能にします

ビデオ生成では、ユーザーは平文からビデオを作成するという困難に常に直面してきました。従来の方法では、緻密なソフトウェ...

AI研究

中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

自然言語処理(NLP)のアプリケーションでは、事前学習済み言語モデル(PLMs)であるBERT/RoBERTaを含む、卓越したパフォーマ...

データサイエンス

「タコ」の複雑な細胞は彼らの高い知能の鍵です

研究者たちは、自動組織準備と新しい機械学習再構築アルゴリズムを用いて、タコの学習プロセスを定義する神経の構造を探索し...

データサイエンス

クラウドを通じたデジタルトランスフォーメーションの推進

オラクルクラウドワールドの基調講演では、クラウドとAIを活用してデジタル変革の旅を進める業界リーダーたちが、経験とビジ...

機械学習

「DreamPose」というAIフレームワークを使用して、ファッション画像を見事な写真のようなビデオに変換します

ファッション写真は、ソーシャルメディアやEコマースのウェブサイトなど、オンラインプラットフォームで広く使われています。...