「非常にシンプルな数学が大規模言語モデル(LLMs)の強化学習と高次関数(RLHF)に情報を提供できるのか? このAIの論文はイエスと言っています!」
このAIの論文は、シンプルな数学がLLMsの強化学習とRLHFに情報を提供できることを示しています!
人間の入力を取り入れることは、ChatGPTやGPT-4などの大規模言語モデル(LLM)の能力の近年の印象的な向上の鍵要素です。人間のフィードバックを効果的に活用するためには、人間の好み、価値観、倫理的な問題を組み込んだ報酬モデルをまず訓練する必要があります。その後、報酬モデルの指示の下で強化学習を用いてLLMを調整します。この手順は、人間の目的とLLMを成功裏に調整し、対人間コミュニケーションの質を大幅に向上させるものです。
人間の好みに基づいた機能的な報酬システムを作成するのは簡単ではありません。特に、人間のラベラーが特定のプロンプトに対して数値の評価を提供できない場合、課題となります。代わりに、品質に関する補完についてのペアワイズ比較は、人々にとってははるかに簡単です。InstructGPTの作成においてもこのアプローチが使用されました。具体的には、人間のラベラーは同じプロンプトに対してLLMによって生成された多くの補完を示した後、品質が最も高いものから最も低いものまで並べます。
その後、補完は、人間の好みのランクにほぼ近いように訓練されたニューラルネットワークによって開発された報酬モデルに基づいて報酬を受けます。順位付けは、キャリブレーションの問題を解消するなどの特定の利点がありますが、複数のプロンプトの異なる報酬分布を適切に反映していません。これにより、上位にランク付けされた補完が別の補完よりもどれだけ優れているかが明確になりません。一部のRLHFプロンプトは開放的であるか、つまりユーザーの履歴に依存しているため、報酬分布は広範囲にわたる可能性があります。したがって、この懸念は特に関連性があります。
- 「LEVER(リーバー)とは、生成されたプログラムの実行結果を検証することを学習することで、言語からコードへの変換を改善するためのシンプルなAIアプローチです」
- AWSの知的ドキュメント処理を生成AIで強化する
- マシンラーニングのロードマップ:コミュニティの推奨事項2023
一方、いくつかのプロンプトは閉じた形式であり、高いまたは低いスコアを受けるべき応答を生成します。これにより、報酬分布には約2つのポイントマス分布が生じます。最初の種類のプロンプトの例には、「ピタゴラスの定理を証明する」や「鶏は恐竜ですか」といったものがあります。2番目の種類の例には、「ピタゴラスの定理を証明する」と「100年後のAIの姿についての短編を書く」といったものがあります。プロンプトに関連する細微な手がかりを考慮に入れることで、報酬モデルはLLMが不確実性を適切に測定するのに役立つかもしれません。
スタンフォード大学、プリンストン大学、ペンシルベニア大学の研究者たちは、好みの順位に基づいて報酬モデルを訓練することで、プロンプトに独立した報酬分布を提供することができるという予期しない現象を文書化しています。この現象は、訓練の最後の段階で起こるもので、報酬の崩壊として知られています。興味深いことに、この現象は実証的に証明される前に、理論的な分析で予測されていました。彼らは、報酬の崩壊の報酬分布を数値的に推定するために、簡単な最適化プログラム、あるいはもっと簡単には閉形式の式を使用できることを示しています。報酬の崩壊の予測は、実証的な結果と非常に良い一致を示しています。
彼らの2番目の主要な貢献は、報酬の崩壊を防ぐためにその発生を予測するための同じ最適化プログラムからのデータを使用する原則的な戦略を紹介することです。報酬の崩壊は望ましくないものであり、異なるプロンプト間の微細な違いを無視する可能性があります。これにより、LLMが強化学習と報酬モデルを使用して訓練される際に、人間の選択の誤校正が生じる可能性があります。報酬モデルの訓練の早期終了は、この問題に対する単純な解決策ですが、かなり任意的であり、終了時期の決定が困難な場合があります。
要するに、彼らはプロンプトに基づいて異なるユーティリティ関数を使用して報酬モデルを訓練することを提案しています。これにより、結果として得られる報酬分布は、プロンプトが開放的な場合と閉じた形式の場合に応じて広範に分散するか、集中するかが決まります。このプロンプトに対応したテクニックは、報酬分布の構造を必要に応じて完全にカスタマイズすることができるという明らかな利点があります。彼らの研究結果は、このプロンプトに対応したテクニックを使用することで報酬の崩壊を大幅に減少させることができることを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles