RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です

Does RL (Reinforcement Learning) really need to be used in RLHF (Reinforcement Learning from Human Feedback)? Stanford University's new research proposes DPO (Direct Preference Optimization), a simple training method that trains language models based on preferences without using RL.

巨大な教師なしLM(言語モデル)は、大量のデータセットで訓練されると、その創造者さえ驚かせるほどの能力を獲得します。ただし、これらのモデルは、多様な動機、目標、能力を持つ人々によって作成された情報で訓練されます。これらの目標や能力をすべて模倣することはできないかもしれません。信頼性の高い、効果的で管理しやすいシステムを作成するためには、モデルの望ましい応答と振る舞いを、膨大な情報とスキルの中から慎重に選択することが重要です。

スタンフォード大学とCZ研究者は、明示的な報酬モデリングや強化学習を使用せずに、言語モデルを人間の好みに合わせる方法を示しています。彼らの研究は、現在のアプローチで使用されている強化学習ベースの目標を、単純なバイナリクロスエントロピー目標で最適化する方法を示しており、好み学習プロセスを大幅に簡略化し、これを実際に行う方法を示しています。

彼らは、Direct Preference Optimization(DPO)を提案しています。この新しいアルゴリズムは、既存の強化学習ベースのアルゴリズム(報酬の最大化とKLダイバージェンス制約)と同じ目標を暗黙的に達成しますが、構築とトレーニングが容易です。DPOのアップデートは、好ましい回答と好ましくない回答の対数比を直感的に向上させる一方で、モデルの悪化を防ぐために動的な例ごとの重みも含まれています。

DPOは、他のアルゴリズムと同様に、理論的な優先モデルを使用して報酬関数の一貫性を実証的な優先データと評価します。従来のアプローチでは、優先モデルを使用して報酬モデルを訓練するために優先損失を定義しますが、DPOは代わりに変数スイッチを使用して学習された報酬モデルを最大化するポリシーを訓練します。したがって、DPOは、トレーニング中に報酬関数を明示的に学習することなく、モデルの応答に対する人間の嗜好のデータセットを使用して、単純なバイナリクロスエントロピーの目標を持つポリシーを最適化することができます。

この研究の結果は、DPOが感情調節、要約、対話などのさまざまなタスクで、6Bパラメータを含む言語モデルに対して、PPOベースのRLHF(好みに基づく学習)などの最新のアプローチと同等に効果的であることを示しています。人間の評価では、58%の人がDPOの要約をPPOの要約よりも好みます。テストセットでは、61%の人がDPOの要約を人間の評価よりも好みます。Anthropic HHでは、DPOの単一ターンの応答が選択的な補完よりも好まれる場合が60%あります。

チームは、DPOが人間の好みに基づいて言語モデルを訓練するだけでなく、さまざまなモダリティで生成モデルを訓練するためにも多くの潜在的な用途があると述べています。

提案されたモデルの評価は、6Bパラメータまで高まりますが、チームは、オーダーオブマグニチュードのデータを持つ最新のモデルにDPOをスケーリングするためのさらなる研究が必要だと考えています。研究者たちはまた、プロンプトがGPT-4の計算された勝率に影響を与えることを発見しました。将来的には、機械から専門家の意見を引き出すための最も効果的な手段を調査する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「トップAIランダム顔生成アプリ(2023年)」

ランダムフェースジェネレーターは、最先端の画像処理技術を使用してランダムな顔を生成します。ビッグデータ技術によって、...

AI研究

マイクロソフトと香港浸会大学の研究者が、WizardCoder A Code Evol-Instruct Fine-Tuned Code LLMを紹介しました

大規模言語モデル(LLM)は最近注目を集め、驚異的な成功を収めています。特にOpenAIのChatGPTは注目すべき例です。これらの...

データサイエンス

自分の脳の季節性を活用した、1年間のデータサイエンスの自己学習プランの作成方法

ソーシャルメディアでは、最近自分自身でデータサイエンスを学んだ人々が3ヶ月でデータサイエンスを習得し、成功したという話...

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...

機械学習

AIの変革の道:OpenAIのGPT-4を通してのオデッセイ

ソフトウェア開発者は、OpenAIのGPT-4を使用して複数のアプリケーションを生成し、時間の節約、コストの削減、パーソナライズ...

人工知能

「ボイスディープフェイクがあなたの銀行残高を脅かしています」

「人工知能のツールは、詐欺師が人々を騙してお金を送らせるための強力な武器となっています」