スタンフォード大学の研究者がSequenceMatchを紹介:模倣学習損失を用いたLLMsのトレーニング
Stanford University researchers introduce SequenceMatch Training LLMs with imitation learning loss.
自己回帰モデルは、変数の現在の値が過去の値に大きく依存するという直感に基づいた統計モデルの一種です。つまり、モデルは、過去の値に回帰させることによって、変数の将来の値を予測します。自己回帰モデルの最もよく知られた例の1つは、特に前の単語が与えられた場合に、シーケンス内の次の単語を予測するという基盤に大きく依存するGPTモデルのクラスであり、特にGPT-3およびそのバリアントです。大規模なテキストコーパスでこの自己回帰的な方法でGPTをトレーニングすることにより、言語の統計的パターン、依存関係、および意味的関係を捕捉することを学び、それによって入力プロンプトに基づいて文脈に即したテキストを生成することができます。しかし、以前の研究実験では、より小さなモデルや、ランダム性や変動性が少なく調整されたモデル(すなわち、より低い生成温度)は、繰り返しや誤った出力を生成する傾向があることが示されています。さらに、これらのモデルは、自分自身の出力を入力として使用する場合があり、しばしば意図した分布からモデルをすぐに離れるような複合エラーを引き起こします。
これらの課題に対処するために、スタンフォード大学の研究者チームは初期研究を行い、MLEでトレーニングされた自己回帰モデルが評価中に整合的なシーケンスを生成することを妨げる2つの主な障害を特定しました。最初の問題は、モデルとデータ分布の間の不一致を評価するために使用される発散測度にあります。MLEでは、分布外(OOD)のシーケンスを考慮しないため、そのようなシーケンスにおけるモデルの動作を制御することはできません。これを解決するために、研究者たちは、実際のデータと自己回帰的に生成されたシーケンスの組み合わせ間のχ2発散度を最小化するというアイデアを考案しました。これはMLEに比べて優れた性能を発揮しています。2番目の課題は、モデルがOODトークンを生成して、データ分布に整合する適切な継続がない場合に発生します。これに対処するために、研究者たちは、生成プロセスで<backspace>アクションを導入し、モデルが前のトークンを消去して、誤りを修正できるようにしました。
これらの初期研究から学びを得て、スタンフォード大学の研究者たちは、SequenceMatchと呼ばれる新しい手法を提案しました。これにより、自己回帰モデルを異なる発散技術に対してトレーニングすることができ、<backspace>アクションを追加することができます。研究者たちは、シーケンス生成の問題を強化学習問題として再定式化しました。単純に言えば、与えられた状態(つまり、部分シーケンス)に対して、すべての可能なシーケンスの中から次の行動(この場合、次のトークンの生成)を選択することを要約します。したがって、強化学習のフレームワークの1つである非対抗的な模倣学習の最新の開発を活用することにより、トレーニングされたモデルの占有測定と実際のデータの分布の間の発散を減らすことができました。さらに、シーケンス生成における複合エラーをさらに最小限に抑えるために、MLEではなく<backspace>アクションを使用して、自己回帰モデルをトレーニングしました。この言語モデリングの完全教師あり損失技術であるSequenceMatchは、事前にトレーニングされたモデルを微調整する追加ステップとして使用できます。
- プリンストン大学の研究者が、自然界の写実的な3Dシーンの手続き生成器であるInfinigenを紹介しました
- Allen Institute for AI の研究者が、自然言語の指示に基づいて複雑で構成的な視覚的タスクを解決するための神経記号アプローチである VISPROG を紹介します
- 研究者たちは、新しい量子光源を開発しました
研究者たちは、MAUVEスコアをメトリックとして使用して、SequenceMatchで微調整されたGPT-2ベースのモデルのパフォーマンスとMLEでトレーニングされたモデルのパフォーマンスを比較するためにいくつかの実験評価を実施しました。その結果、SequenceMatchで微調整されたモデルはデータセットに近いテキストを生成し、MLEでトレーニングされたモデルと比較して、より流暢でエラーの少ないテキストを生成することが判明しました。チームは、モデルが長いテキストを生成するためにより多くの計算リソースと時間が必要であるという制限を強調しました。今後の課題に関しては、研究者たちは、異なる発散方法が生成されたシーケンスの品質にどのように影響するかを研究することに注力しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています
- UCバークレーとMeta AIの研究者らは、トラックレット上で3Dポーズとコンテキスト化された外観を融合することにより、ラグランジュアクション認識モデルを提案しています
- AIの汎化ギャップに対処:ロンドン大学の研究者たちは、Spawriousという画像分類ベンチマークスイートを提案しましたこのスイートには、クラスと背景の間に偽の相関が含まれます
- テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています
- Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました
- サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました
- LinkedInとUCバークレーの研究者らは、AIによって生成されたプロフィール写真を検出する新しい方法を提案しています