DeepMindの研究者が、成長するバッチ強化学習(RL)に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training(ReST)を提案しました

DeepMindの研究者がReinforced Self-Training(ReST)というシンプルなアルゴリズムを提案しましたこのアルゴリズムは、人間の好みに合わせたLLMを整列させるために使われます

大規模言語モデル(LLM)は、優れた文章を生成し、さまざまな言語的な問題を解決するのに優れています。これらのモデルは、膨大な量のテキストと計算を使用してトークンを自己回帰的に予測する確率を高めるためにトレーニングされます。しかし、先行研究は、高確率でテキストを生成することが、異なるタスクにおける人間の好みと一致することは稀であることを示しています。言語モデルは、適切に整列されていない場合、有害な効果をもたらす危険な素材を生成する可能性があります。また、LLMの整列は、他の下流操作のパフォーマンスを向上させます。フィードバックからの強化学習は、整列の問題を解決するために人間の好みを利用します。

報酬モデルは通常、人間の入力によって学習され、その後、強化学習(RL)の目標として使用されるため、LLMを微調整するために使用されます。RLHF技術では、PPOやA2CのようなオンラインRL技術が頻繁に使用されます。オンライントレーニング中に変更されたポリシーをサンプリングする必要があり、サンプルは報酬モデルを使用して繰り返しスコアリングする必要があります。オンラインアプローチは、ポリシーと報酬ネットワークのサイズが拡大するにつれて、新鮮なデータの一定のストリームを処理するための計算費用に制約を受けます。また、これらのアプローチが攻撃を受けやすい「ハッキング」の問題に対処するために、以前の研究ではモデルの正規化を検討しています。代わりに、オフラインRLアルゴリズムは計算効率が高く、報酬ハッキングに対して脆弱性が低いため、事前に定義されたサンプルのデータセットから学習します。

ただし、オフラインデータセットの特性は、オフラインで学習されるポリシーの品質に密接に関連しています。そのため、適切に選択されたデータセットは、オフラインRLの成功には重要です。そうでない場合、教師あり学習よりも性能の向上はわずかかもしれません。彼らはまた、DPO(Direct Preference Optimisation)という手法を提案しています。これは、オフラインデータを使用してLMを人間の好みに合わせることができます。Googleの研究者は、言語モデルの整列の問題を逐次的なRL問題として提示し、彼らのリンフォースドセルフトレーニング(ReST)技術は、2つのループから成り立っています。内側のループ(Improve)は、与えられたデータセット上でポリシーを改善します。一方、外側のループ(Grow)は、最新のポリシーからサンプルを取得してデータセットを拡張します(図1参照)。

図1:ReSTアプローチ。ポリシーはGrowステップでデータセットを作成します。フィルタリングされたデータセットは、Improveステージで言語モデルを微調整するために使用されます。データセットの作成費用を分散するために、Improveフェーズは他の2つのプロセスよりも頻繁に行われます。

この研究では、条件付き言語モデリングを考慮した後、ReSTのフェーズは次のようになります:1. Grow(G):言語モデルポリシー(最初は教師付きポリシー)を使用して、各シナリオごとに数多くの出力予測を生成し、トレーニングデータセットを補完します。2. Improve(I):学習報酬モデルで訓練されたスコアリング関数を使用して、エンリッチドデータセットをランク付けおよびフィルタリングします。フィルタリングされたデータセットは、オフラインRLの目標を持つ言語モデルを調整します。このプロセスをフィルタリングの閾値を増やすことで繰り返します。その後、次のGrowステップでは最終的なポリシーが使用されます。 ReSTは、Improveステップを実行する際に、内側のループでさまざまなオフラインRL損失を使用することを可能にする一般的なアプローチです。

実践するためには、モデルから効果的にサンプリングする能力と、モデルのサンプルをスコアリングする能力が必要です。オンラインまたはオフラインのRLを使用する標準的なRLHFアプローチよりも、ReSTにはいくつかの利点があります:

• Growフェーズの出力は、複数のImproveステージで使用されるため、オンラインRLと比較して計算コストが大幅に削減されます。

• Growステップ中に改善されたポリシーから新しいトレーニングデータがサンプリングされるため、ポリシーの品質は元のデータセットの品質に制約されません(オフラインRLとは異なります)。

• データ品質の検査や報酬のハッキングなど、成長と改善のステップが切り離されているため、アラインメントの問題を診断することが簡単です。

• 調整するハイパーパラメータはほとんどなく、技術は直感的で信頼性があります。

機械翻訳は、通常、条件付き言語モデリングとして表現されるシーケンス・トゥ・シーケンス学習の問題であり、外国語のフレーズが条件付けコンテキスト(ソース)として使用されます。彼らは機械翻訳を選択する理由として、(a)堅実なベースラインと明確な評価プロセスを持つ有用なアプリケーションであること、および(b)信頼できるいくつかの現在のスコアリングおよび評価方法を報酬モデルとして使用できることを挙げています。彼らは、IWSLT 2014およびWMT 2020のベンチマーク、およびWebドメインのより難解な内部ベンチマークで、いくつかのオフラインRLアルゴリズムを比較します。ReSTは、試行中のテストセットと検証セットで報酬モデルの結果を劇的に向上させます。人間の評価者によれば、ReSTは教師あり学習のベースラインよりも品質の高い翻訳を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon Textract、Amazon Bedrock、およびLangChainによるインテリジェントドキュメント処理」

今日の情報時代において、無数の書類に収められた膨大なデータ量は、企業にとって挑戦と機会を同時にもたらします従来の書類...

AI研究

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MM...

機械学習

学習曲線の航行:AIの記憶保持との闘い

人工知能(AI)の境界が絶えず拡大するにつれて、研究者たちはこの分野の最大の課題の1つである記憶喪失と格闘していますAIの...

機械学習

マルチモーダルニューロンの秘密を明らかにする:モリヌーからトランスフォーマーへの旅

トランスフォーマーは人工知能領域において最も重要なイノベーションの一つとなるかもしれません。これらのニューラルネット...

機械学習

「時間差学習と探索の重要性:図解ガイド」

最近、強化学習(RL)アルゴリズムは、タンパク質の折りたたみやドローンレースの超人レベルの到達、さらには統合などの研究...

機械学習

複雑なタスクの実行におけるロボットの強化:Meta AIが人間の行動のインターネット動画を使用して視覚的な手がかりモデルを開発する

メタAIは、先進的な人工知能(AI)研究機関であり、最近、ロボティクスの分野を革命的に変えると約束する画期的なアルゴリズ...