スタンフォード大学とUTオースティンの研究者は、Contrastive Preference Learning (CPL)を提案します:RLHFのためのRL-Freeな方法であり、任意のMDPsとオフポリシーのデータと一緒に動作します
『スタンフォード大学とUTオースティンの研究者による提案:Contrastive Preference Learning (CPL) ー RLHFのためのRL-Freeな方法、MDPsとオフポリシーのデータとの共同作業』
モデルがパフォーマンスを向上させるにつれて、人間の好みと大規模事前トレーニング済みモデルの一致は、研究の中で注目を集めています。大きなデータセットには避けられない不適切な振る舞いがある場合、この調整は特に困難になります。そのため、人間の入力による強化学習(RLHF)が人気を集めています。RLHFアプローチでは、人間の好みを使用して受け入れ可能な行動と悪い行動を区別し、既知のポリシーを改善します。このアプローチは、ロボットのルールの調整、画像生成モデルの向上、そして理想的ではないデータを使用して大規模言語モデル(LLM)を微調整する際に、励みになる結果を示しています。 RLHFアルゴリズムの大部分には、この手続きには2つの段階があります。
まず、ユーザーの好みデータを収集して報酬モデルをトレーニングします。オフシェルフの強化学習(RL)アルゴリズムがその報酬モデルを最適化します。残念ながら、この二段階のパラダイムでは、この基礎に修正が必要です。人間の好みは、アルゴリズムが好みのデータから報酬モデルを開発するための各行動セグメントの割引された報酬の合計または部分的なリターンによって割り当てられる必要があります。しかし、最近の研究では、人間の好みは、専門家の報酬関数の理想的なポリシーの下での各アクションの後悔に基づいているべきだというこの理論を否定し、人間の評価はおそらく報酬より最適性に焦点を当てていると主張しています。
したがって、最適な利点関数、すなわち後悔の否定は、フィードバックから学ぶための理想的な数値である可能性があります。二段階のRLHFアルゴリズムは、最初のフェーズで既知の報酬関数を最適化するためにRLを使用します。実世界の応用では、時間的な信用割り当ては、近似動的プログラミングの不安定性やポリシーグラデーションの高い分散など、RLアルゴリズムにさまざまな最適化の困難をもたらします。その結果、以前の研究ではこれらの問題を回避するために範囲を制限しています。たとえば、RLHFアプローチでは、LLMの場合にはコンテキストバンディット形式が想定されており、ユーザーの質問に対して単一の報酬値がポリシーに与えられます。
- 「二つの頭を持つ分類器の使用例」
- 最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は? AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性(TiC)ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています
- 生物学的な学習から人工ニューラルネットワークへ:次は何だろうか?
ユーザーのLLMsとの相互作用は、マルチステップで連続的であるため、単一ステップのバンディットの仮定は破られています。これにより、長期的な信用割り当ての要件が軽減され、ポリシーグラデーションの高い分散も軽減されます。もう1つの例は、低次元の状態ベースのロボティクスの問題にRLHFを適用することであり、近似動的プログラミングに適しています。ただし、より現実的な連続的な制御領域と画像入力を持つ高次元の制御領域にスケーリングすることはまだできていません。一般的に、RLHFアプローチでは、問題の連続性または次元に関する制約を緩和することで、RLの最適化の制約を軽減する必要があります。彼らは一般的に報酬関数のみが人間の好みを決定すると誤解しています。
この研究では、合計報酬を考慮する一部のリターンモデルとは異なり、Stanford University、UMass Amherst、UT Austinの研究者らは、後悔ベースの好みモデルを使用するこの新しいRLHFアルゴリズムの一族を提供しています。部分的なリターンモデルとは異なり、後悔ベースのアプローチは、最適な行動の正確な情報を提供します。幸いなことに、これによりRLの必要性がなくなり、汎用MDPフレームワークにおいて、高次元の状態とアクション空間のRLHF問題に対処することができます。彼らの基本的な発見は、後悔ベースの好みフレームワークを最大エントロピー(MaxEnt)の原理と組み合わせることによって、利点関数とポリシーの間の双写像を作成することです。
利点関数を最適化する代わりにポリシーを最適化することで、彼らは純粋な教師あり学習の目的を確立することができます。その最適は、専門家の報酬に基づく最良のポリシーです。彼らの手法は広く認識されている対照的な学習目的に似ているため、コントラスティブな好み学習と呼ばれます。CPLには、先行の取り組みと比べて3つの主な利点があります。まず、CPLは動的プログラミングやポリシーグラデーションを使用せずに、教師ありゴールのみを使用して最適な利点を一致させるため、教師あり学習と同じくらいスケーリングすることができます。第二に、CPLは完全にオフポリシーであり、オフラインの理想的でないデータソースを使用することが可能です。最後に、CPLは、任意のMarkov決定プロセス(MDP)の学習のためのシーケンシャルデータ上の好み検索を可能にします。
彼らによると、これまでのRLHFの技術はこの3つの要件を同時に満たすことができていません。CPLの性能を示すため、彼らはサブオプティマルな高次元オフポリシー入力を使用して連続的な意思決定問題でCPLの遵守度を証明します。興味深いことに、彼らは、対話モデルと同じRLHF微調整プロセスを使用して、MetaWorld Benchmarkで時間的に延長された操作ルールを効果的に学習することができるCPLをデモンストレーションしています。より具体的には、高次元の画像観測からの教師あり学習を使用してポリシーを事前トレーニングし、その後好みを使用して微調整します。CPLは、動的プログラミングやポリシーグラデーションなしで既存のRLベースの技術と同等のパフォーマンスを発揮することができます。また、パラメータの効率性が4倍高く、同時に1.6倍速くなります。より密な優先データを使用する場合、CPLはRLベースラインを6つのタスクのうち5つで上回ることができます。研究者は、報酬関数を学習することなく、好みから最適なポリシーを学習するために、最大エントロピーの概念を利用することで強化学習(RL)の必要性を回避することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles