スタンフォード大学の研究者がSequenceMatchを紹介:模倣学習損失を用いたLLMsのトレーニング

Stanford University researchers introduce SequenceMatch Training LLMs with imitation learning loss.

自己回帰モデルは、変数の現在の値が過去の値に大きく依存するという直感に基づいた統計モデルの一種です。つまり、モデルは、過去の値に回帰させることによって、変数の将来の値を予測します。自己回帰モデルの最もよく知られた例の1つは、特に前の単語が与えられた場合に、シーケンス内の次の単語を予測するという基盤に大きく依存するGPTモデルのクラスであり、特にGPT-3およびそのバリアントです。大規模なテキストコーパスでこの自己回帰的な方法でGPTをトレーニングすることにより、言語の統計的パターン、依存関係、および意味的関係を捕捉することを学び、それによって入力プロンプトに基づいて文脈に即したテキストを生成することができます。しかし、以前の研究実験では、より小さなモデルや、ランダム性や変動性が少なく調整されたモデル(すなわち、より低い生成温度)は、繰り返しや誤った出力を生成する傾向があることが示されています。さらに、これらのモデルは、自分自身の出力を入力として使用する場合があり、しばしば意図した分布からモデルをすぐに離れるような複合エラーを引き起こします。

これらの課題に対処するために、スタンフォード大学の研究者チームは初期研究を行い、MLEでトレーニングされた自己回帰モデルが評価中に整合的なシーケンスを生成することを妨げる2つの主な障害を特定しました。最初の問題は、モデルとデータ分布の間の不一致を評価するために使用される発散測度にあります。MLEでは、分布外(OOD)のシーケンスを考慮しないため、そのようなシーケンスにおけるモデルの動作を制御することはできません。これを解決するために、研究者たちは、実際のデータと自己回帰的に生成されたシーケンスの組み合わせ間のχ2発散度を最小化するというアイデアを考案しました。これはMLEに比べて優れた性能を発揮しています。2番目の課題は、モデルがOODトークンを生成して、データ分布に整合する適切な継続がない場合に発生します。これに対処するために、研究者たちは、生成プロセスで<backspace>アクションを導入し、モデルが前のトークンを消去して、誤りを修正できるようにしました。

これらの初期研究から学びを得て、スタンフォード大学の研究者たちは、SequenceMatchと呼ばれる新しい手法を提案しました。これにより、自己回帰モデルを異なる発散技術に対してトレーニングすることができ、<backspace>アクションを追加することができます。研究者たちは、シーケンス生成の問題を強化学習問題として再定式化しました。単純に言えば、与えられた状態(つまり、部分シーケンス)に対して、すべての可能なシーケンスの中から次の行動(この場合、次のトークンの生成)を選択することを要約します。したがって、強化学習のフレームワークの1つである非対抗的な模倣学習の最新の開発を活用することにより、トレーニングされたモデルの占有測定と実際のデータの分布の間の発散を減らすことができました。さらに、シーケンス生成における複合エラーをさらに最小限に抑えるために、MLEではなく<backspace>アクションを使用して、自己回帰モデルをトレーニングしました。この言語モデリングの完全教師あり損失技術であるSequenceMatchは、事前にトレーニングされたモデルを微調整する追加ステップとして使用できます。

研究者たちは、MAUVEスコアをメトリックとして使用して、SequenceMatchで微調整されたGPT-2ベースのモデルのパフォーマンスとMLEでトレーニングされたモデルのパフォーマンスを比較するためにいくつかの実験評価を実施しました。その結果、SequenceMatchで微調整されたモデルはデータセットに近いテキストを生成し、MLEでトレーニングされたモデルと比較して、より流暢でエラーの少ないテキストを生成することが判明しました。チームは、モデルが長いテキストを生成するためにより多くの計算リソースと時間が必要であるという制限を強調しました。今後の課題に関しては、研究者たちは、異なる発散方法が生成されたシーケンスの品質にどのように影響するかを研究することに注力しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「スタートアップ向けの30以上のAIツール(2023年9月)」

AIによって、職場の創造性、分析、そして意思決定が革新されています。現在、人工知能の能力は、ビジネスが拡大を急速化し、...

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...

機械学習

新しい技術の詳細なコース:AWS上の生成AIの基礎

「AWS上の生成AIの基礎」は、AWSやその他のプラットフォーム上で最新の基礎モデルを事前トレーニング、微調整、展開するため...

機械学習

NotebookLM グーグルの実験的なAIノートブック、学習と洞察のための向上したもの

Googleは最近、Google I/Oカンファレンスでプロジェクトテイルウィンドとして知られるものをNotebookLMとして発表しました。A...

データサイエンス

「解釈力を高めたk-Meansクラスタリングの改善」

「クラスタリングは、一組のオブジェクトをグループ化する非監督学習のタスクであり、同じグループ内のオブジェクトには他の...

AIニュース

MicrosoftエンジニアのAIイノベーションとリーダーシップへのガイド

「マイクロソフトのシニアソフトウェアエンジニア、マナス・ジョシとともにAIイノベーションの洞察に飛び込もう:次世代のた...