スタンフォード大学の研究者がSequenceMatchを紹介:模倣学習損失を用いたLLMsのトレーニング

Stanford University researchers introduce SequenceMatch Training LLMs with imitation learning loss.

自己回帰モデルは、変数の現在の値が過去の値に大きく依存するという直感に基づいた統計モデルの一種です。つまり、モデルは、過去の値に回帰させることによって、変数の将来の値を予測します。自己回帰モデルの最もよく知られた例の1つは、特に前の単語が与えられた場合に、シーケンス内の次の単語を予測するという基盤に大きく依存するGPTモデルのクラスであり、特にGPT-3およびそのバリアントです。大規模なテキストコーパスでこの自己回帰的な方法でGPTをトレーニングすることにより、言語の統計的パターン、依存関係、および意味的関係を捕捉することを学び、それによって入力プロンプトに基づいて文脈に即したテキストを生成することができます。しかし、以前の研究実験では、より小さなモデルや、ランダム性や変動性が少なく調整されたモデル(すなわち、より低い生成温度)は、繰り返しや誤った出力を生成する傾向があることが示されています。さらに、これらのモデルは、自分自身の出力を入力として使用する場合があり、しばしば意図した分布からモデルをすぐに離れるような複合エラーを引き起こします。

これらの課題に対処するために、スタンフォード大学の研究者チームは初期研究を行い、MLEでトレーニングされた自己回帰モデルが評価中に整合的なシーケンスを生成することを妨げる2つの主な障害を特定しました。最初の問題は、モデルとデータ分布の間の不一致を評価するために使用される発散測度にあります。MLEでは、分布外(OOD)のシーケンスを考慮しないため、そのようなシーケンスにおけるモデルの動作を制御することはできません。これを解決するために、研究者たちは、実際のデータと自己回帰的に生成されたシーケンスの組み合わせ間のχ2発散度を最小化するというアイデアを考案しました。これはMLEに比べて優れた性能を発揮しています。2番目の課題は、モデルがOODトークンを生成して、データ分布に整合する適切な継続がない場合に発生します。これに対処するために、研究者たちは、生成プロセスで<backspace>アクションを導入し、モデルが前のトークンを消去して、誤りを修正できるようにしました。

これらの初期研究から学びを得て、スタンフォード大学の研究者たちは、SequenceMatchと呼ばれる新しい手法を提案しました。これにより、自己回帰モデルを異なる発散技術に対してトレーニングすることができ、<backspace>アクションを追加することができます。研究者たちは、シーケンス生成の問題を強化学習問題として再定式化しました。単純に言えば、与えられた状態(つまり、部分シーケンス)に対して、すべての可能なシーケンスの中から次の行動(この場合、次のトークンの生成)を選択することを要約します。したがって、強化学習のフレームワークの1つである非対抗的な模倣学習の最新の開発を活用することにより、トレーニングされたモデルの占有測定と実際のデータの分布の間の発散を減らすことができました。さらに、シーケンス生成における複合エラーをさらに最小限に抑えるために、MLEではなく<backspace>アクションを使用して、自己回帰モデルをトレーニングしました。この言語モデリングの完全教師あり損失技術であるSequenceMatchは、事前にトレーニングされたモデルを微調整する追加ステップとして使用できます。

研究者たちは、MAUVEスコアをメトリックとして使用して、SequenceMatchで微調整されたGPT-2ベースのモデルのパフォーマンスとMLEでトレーニングされたモデルのパフォーマンスを比較するためにいくつかの実験評価を実施しました。その結果、SequenceMatchで微調整されたモデルはデータセットに近いテキストを生成し、MLEでトレーニングされたモデルと比較して、より流暢でエラーの少ないテキストを生成することが判明しました。チームは、モデルが長いテキストを生成するためにより多くの計算リソースと時間が必要であるという制限を強調しました。今後の課題に関しては、研究者たちは、異なる発散方法が生成されたシーケンスの品質にどのように影響するかを研究することに注力しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIフィードバックループ:AI生成コンテンツの時代におけるモデルの製品品質の維持」

「AIのフィードバックループが、生成型AIの登場に伴い、モデルの品質維持、効率向上、パフォーマンス向上にどのように役立つ...

AI研究

Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデ...

機械学習

「AIバイアス&文化的なステレオタイプ:影響、制約、そして緩和」

「AIのバイアスは私たちの社会に害をもたらしますAIアルゴリズムに根付いたバイアスについて学び、それらを軽減するさまざま...

データサイエンス

AI増強ソフトウェアエンジニアリング:知っておくべきすべてのこと

この包括的なガイドで、AIを活用したソフトウェアエンジニアリングの急速に成長する分野について学び、どのようにソフトウェ...

AIニュース

医療AIツールは危険な誤りを引き起こす可能性があります政府はそれらを予防するのに役立つのでしょうか?

バイデン政権は、人工知能の健康ケアアプリに対して、安全性を確保するためのラベリングシステムの導入を提案しています

機械学習

このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成するこ...