DeepMindの研究者が、成長するバッチ強化学習（RL）に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training（ReST）を提案しました

DeepMindの研究者がReinforced Self-Training（ReST）というシンプルなアルゴリズムを提案しましたこのアルゴリズムは、人間の好みに合わせたLLMを整列させるために使われます

大規模言語モデル（LLM）は、優れた文章を生成し、さまざまな言語的な問題を解決するのに優れています。これらのモデルは、膨大な量のテキストと計算を使用してトークンを自己回帰的に予測する確率を高めるためにトレーニングされます。しかし、先行研究は、高確率でテキストを生成することが、異なるタスクにおける人間の好みと一致することは稀であることを示しています。言語モデルは、適切に整列されていない場合、有害な効果をもたらす危険な素材を生成する可能性があります。また、LLMの整列は、他の下流操作のパフォーマンスを向上させます。フィードバックからの強化学習は、整列の問題を解決するために人間の好みを利用します。

報酬モデルは通常、人間の入力によって学習され、その後、強化学習（RL）の目標として使用されるため、LLMを微調整するために使用されます。RLHF技術では、PPOやA2CのようなオンラインRL技術が頻繁に使用されます。オンライントレーニング中に変更されたポリシーをサンプリングする必要があり、サンプルは報酬モデルを使用して繰り返しスコアリングする必要があります。オンラインアプローチは、ポリシーと報酬ネットワークのサイズが拡大するにつれて、新鮮なデータの一定のストリームを処理するための計算費用に制約を受けます。また、これらのアプローチが攻撃を受けやすい「ハッキング」の問題に対処するために、以前の研究ではモデルの正規化を検討しています。代わりに、オフラインRLアルゴリズムは計算効率が高く、報酬ハッキングに対して脆弱性が低いため、事前に定義されたサンプルのデータセットから学習します。

ただし、オフラインデータセットの特性は、オフラインで学習されるポリシーの品質に密接に関連しています。そのため、適切に選択されたデータセットは、オフラインRLの成功には重要です。そうでない場合、教師あり学習よりも性能の向上はわずかかもしれません。彼らはまた、DPO（Direct Preference Optimisation）という手法を提案しています。これは、オフラインデータを使用してLMを人間の好みに合わせることができます。Googleの研究者は、言語モデルの整列の問題を逐次的なRL問題として提示し、彼らのリンフォースドセルフトレーニング（ReST）技術は、2つのループから成り立っています。内側のループ（Improve）は、与えられたデータセット上でポリシーを改善します。一方、外側のループ（Grow）は、最新のポリシーからサンプルを取得してデータセットを拡張します（図1参照）。

**図1：**ReSTアプローチ。ポリシーはGrowステップでデータセットを作成します。フィルタリングされたデータセットは、Improveステージで言語モデルを微調整するために使用されます。データセットの作成費用を分散するために、Improveフェーズは他の2つのプロセスよりも頻繁に行われます。

この研究では、条件付き言語モデリングを考慮した後、ReSTのフェーズは次のようになります：1. Grow（G）：言語モデルポリシー（最初は教師付きポリシー）を使用して、各シナリオごとに数多くの出力予測を生成し、トレーニングデータセットを補完します。2. Improve（I）：学習報酬モデルで訓練されたスコアリング関数を使用して、エンリッチドデータセットをランク付けおよびフィルタリングします。フィルタリングされたデータセットは、オフラインRLの目標を持つ言語モデルを調整します。このプロセスをフィルタリングの閾値を増やすことで繰り返します。その後、次のGrowステップでは最終的なポリシーが使用されます。 ReSTは、Improveステップを実行する際に、内側のループでさまざまなオフラインRL損失を使用することを可能にする一般的なアプローチです。

実践するためには、モデルから効果的にサンプリングする能力と、モデルのサンプルをスコアリングする能力が必要です。オンラインまたはオフラインのRLを使用する標準的なRLHFアプローチよりも、ReSTにはいくつかの利点があります：

• Growフェーズの出力は、複数のImproveステージで使用されるため、オンラインRLと比較して計算コストが大幅に削減されます。

• Growステップ中に改善されたポリシーから新しいトレーニングデータがサンプリングされるため、ポリシーの品質は元のデータセットの品質に制約されません（オフラインRLとは異なります）。

• データ品質の検査や報酬のハッキングなど、成長と改善のステップが切り離されているため、アラインメントの問題を診断することが簡単です。

• 調整するハイパーパラメータはほとんどなく、技術は直感的で信頼性があります。

機械翻訳は、通常、条件付き言語モデリングとして表現されるシーケンス・トゥ・シーケンス学習の問題であり、外国語のフレーズが条件付けコンテキスト（ソース）として使用されます。彼らは機械翻訳を選択する理由として、（a）堅実なベースラインと明確な評価プロセスを持つ有用なアプリケーションであること、および（b）信頼できるいくつかの現在のスコアリングおよび評価方法を報酬モデルとして使用できることを挙げています。彼らは、IWSLT 2014およびWMT 2020のベンチマーク、およびWebドメインのより難解な内部ベンチマークで、いくつかのオフラインRLアルゴリズムを比較します。ReSTは、試行中のテストセットと検証セットで報酬モデルの結果を劇的に向上させます。人間の評価者によれば、ReSTは教師あり学習のベースラインよりも品質の高い翻訳を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningReinforcement LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

DeepMindの研究者が、成長するバッチ強化学習（RL）に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training（ReST）を提案しました

Was this article helpful?

プロンプトエンジニアリング：AIを騙して問題を解決する方法

メタがコードラマをリリース：コーディングのための最新のAIツール

AI研究

「大規模な言語モデルがコンパイラ最適化のメタAI研究者を驚かせる！」

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

『思考の整理、早くて遅い+AI』

トップ40+の生成AIツール（2023年10月）

「DeepMindによるこのAI研究は、シンプルな合成データを使用して、大規模な言語モデル（LLM）におけるおべっか使用を減らすことを目指しています」

「2023年の機械学習のアンラーニング：現在の状況と将来の方向性」