RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です

Does RL (Reinforcement Learning) really need to be used in RLHF (Reinforcement Learning from Human Feedback)? Stanford University's new research proposes DPO (Direct Preference Optimization), a simple training method that trains language models based on preferences without using RL.

巨大な教師なしLM(言語モデル)は、大量のデータセットで訓練されると、その創造者さえ驚かせるほどの能力を獲得します。ただし、これらのモデルは、多様な動機、目標、能力を持つ人々によって作成された情報で訓練されます。これらの目標や能力をすべて模倣することはできないかもしれません。信頼性の高い、効果的で管理しやすいシステムを作成するためには、モデルの望ましい応答と振る舞いを、膨大な情報とスキルの中から慎重に選択することが重要です。

スタンフォード大学とCZ研究者は、明示的な報酬モデリングや強化学習を使用せずに、言語モデルを人間の好みに合わせる方法を示しています。彼らの研究は、現在のアプローチで使用されている強化学習ベースの目標を、単純なバイナリクロスエントロピー目標で最適化する方法を示しており、好み学習プロセスを大幅に簡略化し、これを実際に行う方法を示しています。

彼らは、Direct Preference Optimization(DPO)を提案しています。この新しいアルゴリズムは、既存の強化学習ベースのアルゴリズム(報酬の最大化とKLダイバージェンス制約)と同じ目標を暗黙的に達成しますが、構築とトレーニングが容易です。DPOのアップデートは、好ましい回答と好ましくない回答の対数比を直感的に向上させる一方で、モデルの悪化を防ぐために動的な例ごとの重みも含まれています。

DPOは、他のアルゴリズムと同様に、理論的な優先モデルを使用して報酬関数の一貫性を実証的な優先データと評価します。従来のアプローチでは、優先モデルを使用して報酬モデルを訓練するために優先損失を定義しますが、DPOは代わりに変数スイッチを使用して学習された報酬モデルを最大化するポリシーを訓練します。したがって、DPOは、トレーニング中に報酬関数を明示的に学習することなく、モデルの応答に対する人間の嗜好のデータセットを使用して、単純なバイナリクロスエントロピーの目標を持つポリシーを最適化することができます。

この研究の結果は、DPOが感情調節、要約、対話などのさまざまなタスクで、6Bパラメータを含む言語モデルに対して、PPOベースのRLHF(好みに基づく学習)などの最新のアプローチと同等に効果的であることを示しています。人間の評価では、58%の人がDPOの要約をPPOの要約よりも好みます。テストセットでは、61%の人がDPOの要約を人間の評価よりも好みます。Anthropic HHでは、DPOの単一ターンの応答が選択的な補完よりも好まれる場合が60%あります。

チームは、DPOが人間の好みに基づいて言語モデルを訓練するだけでなく、さまざまなモダリティで生成モデルを訓練するためにも多くの潜在的な用途があると述べています。

提案されたモデルの評価は、6Bパラメータまで高まりますが、チームは、オーダーオブマグニチュードのデータを持つ最新のモデルにDPOをスケーリングするためのさらなる研究が必要だと考えています。研究者たちはまた、プロンプトがGPT-4の計算された勝率に影響を与えることを発見しました。将来的には、機械から専門家の意見を引き出すための最も効果的な手段を調査する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク

最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenな...

人工知能

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法!」

人工知能の急速に進化する風景の中で、確立されたAIモデルの支配に挑戦する新たな候補が現れました。テックサークルで話題の...

機械学習

「グラフ注意ネットワーク論文のイラストとPyTorchによる実装の説明」

グラフニューラルネットワーク(GNN)は、グラフ構造のデータに作用する強力なニューラルネットワークの一種ですノードのロー...

データサイエンス

2023年の機械学習研究におけるトップのデータバージョン管理ツール

生産に使用されるすべてのシステムはバージョン管理する必要があります。ユーザーが最新のデータにアクセスできる単一の場所...

データサイエンス

オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット

大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることに...

コンピュータサイエンス

「オープンソースAI」の神話

新たな分析によると、「オープンソース」のAIツールであるLlama 2などは、さまざまな方法で依然として大手テック企業によって...