DeepMindの研究者が、成長するバッチ強化学習(RL)に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training(ReST)を提案しました

DeepMindの研究者がReinforced Self-Training(ReST)というシンプルなアルゴリズムを提案しましたこのアルゴリズムは、人間の好みに合わせたLLMを整列させるために使われます

大規模言語モデル(LLM)は、優れた文章を生成し、さまざまな言語的な問題を解決するのに優れています。これらのモデルは、膨大な量のテキストと計算を使用してトークンを自己回帰的に予測する確率を高めるためにトレーニングされます。しかし、先行研究は、高確率でテキストを生成することが、異なるタスクにおける人間の好みと一致することは稀であることを示しています。言語モデルは、適切に整列されていない場合、有害な効果をもたらす危険な素材を生成する可能性があります。また、LLMの整列は、他の下流操作のパフォーマンスを向上させます。フィードバックからの強化学習は、整列の問題を解決するために人間の好みを利用します。

報酬モデルは通常、人間の入力によって学習され、その後、強化学習(RL)の目標として使用されるため、LLMを微調整するために使用されます。RLHF技術では、PPOやA2CのようなオンラインRL技術が頻繁に使用されます。オンライントレーニング中に変更されたポリシーをサンプリングする必要があり、サンプルは報酬モデルを使用して繰り返しスコアリングする必要があります。オンラインアプローチは、ポリシーと報酬ネットワークのサイズが拡大するにつれて、新鮮なデータの一定のストリームを処理するための計算費用に制約を受けます。また、これらのアプローチが攻撃を受けやすい「ハッキング」の問題に対処するために、以前の研究ではモデルの正規化を検討しています。代わりに、オフラインRLアルゴリズムは計算効率が高く、報酬ハッキングに対して脆弱性が低いため、事前に定義されたサンプルのデータセットから学習します。

ただし、オフラインデータセットの特性は、オフラインで学習されるポリシーの品質に密接に関連しています。そのため、適切に選択されたデータセットは、オフラインRLの成功には重要です。そうでない場合、教師あり学習よりも性能の向上はわずかかもしれません。彼らはまた、DPO(Direct Preference Optimisation)という手法を提案しています。これは、オフラインデータを使用してLMを人間の好みに合わせることができます。Googleの研究者は、言語モデルの整列の問題を逐次的なRL問題として提示し、彼らのリンフォースドセルフトレーニング(ReST)技術は、2つのループから成り立っています。内側のループ(Improve)は、与えられたデータセット上でポリシーを改善します。一方、外側のループ(Grow)は、最新のポリシーからサンプルを取得してデータセットを拡張します(図1参照)。

図1:ReSTアプローチ。ポリシーはGrowステップでデータセットを作成します。フィルタリングされたデータセットは、Improveステージで言語モデルを微調整するために使用されます。データセットの作成費用を分散するために、Improveフェーズは他の2つのプロセスよりも頻繁に行われます。

この研究では、条件付き言語モデリングを考慮した後、ReSTのフェーズは次のようになります:1. Grow(G):言語モデルポリシー(最初は教師付きポリシー)を使用して、各シナリオごとに数多くの出力予測を生成し、トレーニングデータセットを補完します。2. Improve(I):学習報酬モデルで訓練されたスコアリング関数を使用して、エンリッチドデータセットをランク付けおよびフィルタリングします。フィルタリングされたデータセットは、オフラインRLの目標を持つ言語モデルを調整します。このプロセスをフィルタリングの閾値を増やすことで繰り返します。その後、次のGrowステップでは最終的なポリシーが使用されます。 ReSTは、Improveステップを実行する際に、内側のループでさまざまなオフラインRL損失を使用することを可能にする一般的なアプローチです。

実践するためには、モデルから効果的にサンプリングする能力と、モデルのサンプルをスコアリングする能力が必要です。オンラインまたはオフラインのRLを使用する標準的なRLHFアプローチよりも、ReSTにはいくつかの利点があります:

• Growフェーズの出力は、複数のImproveステージで使用されるため、オンラインRLと比較して計算コストが大幅に削減されます。

• Growステップ中に改善されたポリシーから新しいトレーニングデータがサンプリングされるため、ポリシーの品質は元のデータセットの品質に制約されません(オフラインRLとは異なります)。

• データ品質の検査や報酬のハッキングなど、成長と改善のステップが切り離されているため、アラインメントの問題を診断することが簡単です。

• 調整するハイパーパラメータはほとんどなく、技術は直感的で信頼性があります。

機械翻訳は、通常、条件付き言語モデリングとして表現されるシーケンス・トゥ・シーケンス学習の問題であり、外国語のフレーズが条件付けコンテキスト(ソース)として使用されます。彼らは機械翻訳を選択する理由として、(a)堅実なベースラインと明確な評価プロセスを持つ有用なアプリケーションであること、および(b)信頼できるいくつかの現在のスコアリングおよび評価方法を報酬モデルとして使用できることを挙げています。彼らは、IWSLT 2014およびWMT 2020のベンチマーク、およびWebドメインのより難解な内部ベンチマークで、いくつかのオフラインRLアルゴリズムを比較します。ReSTは、試行中のテストセットと検証セットで報酬モデルの結果を劇的に向上させます。人間の評価者によれば、ReSTは教師あり学習のベースラインよりも品質の高い翻訳を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェン...

AI研究

スタンフォード大学の研究者たちは、スペルバーストという大規模言語モデル(LLM)を搭載したクリエイティブコーディング環境を紹介しました

素晴らしいデジタルアートを作成する際、生成アーティストはしばしばコーディングの複雑さに直面することがあります。Process...

AIニュース

15 AIによる音声編集ツール

音響エンジニアや音楽プロデューサーは、メロディやハーモニーの生成、音質の向上など、創造プロセスのさまざまな領域を強化...

機械学習

T-Mobile US株式会社は、Amazon TranscribeとAmazon Translateを通じて人工知能を利用し、顧客の希望する言語でボイスメールを提供しています

この投稿は、T-Mobile US, IncのシニアシステムアーキテクトであるDhurjati Brahma、T-Mobile US, Incの主任エンジニア/アー...

機械学習

「カートゥーンアニメーションの未来を照らす:ラインドローイングインビトのイノベーション」

“`html 1900年代初頭にアニメーション制作が始まって以来、カートゥーンアニメーションは大きな進歩を遂げてきました。...