「蒸留されたアイデンティティの傾向最適化(IPO)を用いて、より洗練されたチャットモデルを調整する」
『蒸留されたアイデンティティを活かし、洗練されたチャットモデルを最適化する方法』
Mistral 7BがIPOとの調和をとる
チャットモデルになるために、事前にトレーニングされた大規模な言語モデル(LLM)は、指示/質問と予想される回答とペアになった大規模なデータセットで微調整されます。このシンプルな微調整によって、説得力のあるチャットモデルが得られますが、その回答はまだ非連続的で偏向的、倫理的または人間の視点から見て安全ではありません。このため、通常はLLMを人間とよりよく調和させるための追加のトレーニングステップを実行します。
この調和は、人間のフィードバックを用いた強化学習(RLHF)を用いて行うことができます。OpenAIやChatGPTの成功によって示されているように、RLHFは最先端のチャットモデルを生み出すことができます。ただし、RLHFは実行コストが高いです。人間によって注釈付けされた大規模なデータセットと複数の補助モデル(参照モデルや報酬モデル)のトレーニングが必要です。
より簡単でコストのかからないRLHFの代替案として、最近は直接関心度最適化(DPO)が適用され、Hugging FaceのZephyrやIntelのNeural ChatなどのLLMを調和させるために成功しています。
本記事では、Google DeepMindの研究をもとに、RLHFやDPOがLLMの調和において優れたパフォーマンスを発揮しているものの、トレーニングに使用されるデータセットからは最適ではないことを示します。DeepMindはまた、なぜDPOが過学習しやすいのかを明らかにしています。私は、DeepMindが提案するアルタナティブであるidentity policy optimization(IPO)目標が、RLHFやDPOよりもトレーニングデータから学ぶためによりシンプルで優れた設計されていることを、わかりやすい英語で説明します。
以下のセクションでは、Hugging FaceがZephyrモデルをトレーニングするために使用したものに似たトレーニング手順に従って、IPOの使用方法を説明します。
Mistral 7B用のIPOトレーニングを実装したノートブックも用意しました。こちらからアクセスできます:
IPOに関するDeepMindの論文はarXivにあります:
ΨPO:選好最適化の一般化
RLHFとDPOは似たようなデータセットでトレーニングされます。プロンプトは少なくとも二つの可能な回答で評価され、それらは人間(またはLLM)によって評価されます。回答は、…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles