NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained

「NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained」

NvidiaとIllinois大学の研究者は、「Retro 48B」という以前の検索増強モデル(Retro(7.5Bパラメータ)など)よりも遥かに大きな言語モデルを紹介しました。Retro 48Bは広範なコーパスでリトリーバルを使って事前学習され、パープレキシティが改善されます。InstructRetroのエンコーダは抽出されることができ、継続的な検索増強の事前学習が質問応答においてデコーダーのパフォーマンスを向上させることを示唆しています。

検索増強言語モデルは、事前学習および推論中に開放領域の質問応答に利益をもたらします。このアプローチにより、モデルのパープレキシティが低下し、事実性が向上し、ファイントゥーニング後のタスクパフォーマンスが向上します。既存の検索増強モデルはデコーダーオンリーモデルと比較してサイズが制約されており、インストラクションチューニング後のゼロショットの汎用性が制限されています。自然言語理解に重要なインストラクションチューニングは、FLAN、OpenAssistant、Dollyなどの高品質のデータセットからのサポートを得ており、チャットや質問応答のタスクにおいて優れたパフォーマンスを実現しています。

Retroなどのリトリーバルを使って言語モデルを事前学習することは、パープレキシティの低下と事実の正確性の向上において有望な成果を示しています。ただし、既存の検索増強モデルはより多くのパラメータとトレーニングデータが必要であり、大規模な言語モデルの一般化におけるタスクパフォーマンスに影響を及ぼします。この研究では、43B GPTモデルに追加のトークンを使って事前学習を続けることにより、最大の検索増強モデルであるRetro 48Bを紹介しています。このプロセスから得られたInstructRetroは、従来のGPTモデルと比較してゼロショットの質問応答を大幅に改善します。エンコーダを抽出した場合でも、InstructRetroのデコーダーは同様の結果を達成し、質問応答におけるコンテキスト統合のための検索増強事前学習の効果を示しています。

この研究では、GPTモデルを事前学習してRetro 48Bを作成し、ゼロショットの質問応答能力を向上させるために指示を与え、さまざまなタスクでのパフォーマンスを評価するという包括的なプロセスを探求しています。最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較して幅広いオープンエンドの質問応答タスクでゼロショットの精度を大幅に向上させます。Retroの拡大アプローチによって、大規模な検索増強モデルの潜在能力が自然言語理解において示されています。

リトリーバルを使って事前学習されたRetro 48Bは、元のGPTモデルよりもパープレキシティが優れています。インストラクションチューニング後、InstructRetroと呼ばれるこのモデルは、ゼロショットの質問応答において、短文タスクでは7%、長文タスクでは10%の改善があります。驚くべきことに、InstructRetroのデコーダーバックボーンのみでも同等の結果が得られ、QAのコンテキスト統合のための事前学習の効果を示しています。

最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較してさまざまな開放型なQAタスクにおいてゼロショットの精度を大幅に向上させます。Retroの追加方法を使った検索増強事前学習により、パープレキシティが改善されます。この研究の結果は、インストラクションチューニングの前に回収を使った継続的な事前学習がQAにおいてGPTデコーダーを向上させるための有望な方向を示しています。驚くべきことに、デコーダーは同等の精度を達成しており、コンテキスト統合のための事前学習の効果を示しています。InstructRetroは長文QAタスクで優れたパフォーマンスを発揮し、検索増強事前学習の潜在能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIは、人間の確証バイアスを克服できるか?

『思考、速思速行』という本でノーベル賞受賞者ダニエル・カーネマンは、私たちは皆、人間の脳が本来すべきことからは遠く離...

データサイエンス

データセットシフトのフレームワークの整理:例

「最近、モデルの性能低下の原因について話しましたこれは、私たちがモデルをトレーニングして展開した時点と比較して予測品...

AI研究

「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」

一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。...

機械学習

Amazon SageMaker Studioで生産性を向上させる:JupyterLab Spacesと生成AIツールを紹介

「Amazon SageMaker Studioは、機械学習(ML)開発における広範なセットの完全に管理された統合開発環境(IDE)を提供しています...

AI研究

「MITキャンパスでのAIパイロットプログラムは、エネルギー使用量と排出物を削減することを目指しています」

「クロス部門チームが、MITの建物の暖房と冷房の効率向上のために機械学習を活用する取り組みをリードしています」

機械学習

ドックスからコードの生成には、LLMsを使用します

大規模言語モデル(LLMs)は、詳細な医師のメモを正確な医療コードに迅速に翻訳することで、効率と正確性を向上させます