Search Results Tensorboard

「TRLを介してDDPOを使用して、安定したディフュージョンモデルを微調整する」

導入拡散モデル（例：DALL-E 2、Stable Diffusion）は、特に写真のような写真のリアルな画像を生成することで広く成功している生成モデルの一種です。ただし、これらのモデルによって生成される画像は常に人間の好みや意図と一致しているわけではありません。これが整合性の問題が生じます。つまり、「品質」といった人間の好みやプロンプトを介しては表現しにくい意図との整合性がモデルの出力と一致していることを確認する方法は何でしょうか？そこで、強化学習が登場します。大規模言語モデル（LLM）の世界では、強化学習（RL）はモデルを人間の好みに合わせるための非常に効果的なツールとして証明されています。それはChatGPTのようなシステムが優れたパフォーマンスを発揮するための主要なレシピの一つです。より具体的には、ChatGPTが人間のようにチャットするためのReinforcement Learning from Human Feedback（RLHF）の重要な要素です。 Blackらは、「Training Diffusion Models with Reinforcement Learning, Black」という論文で、拡散モデルをRLを活用して目的関数に対して微調整する方法を示しています。これはDenoising Diffusion Policy Optimization（DDPO）と呼ばれる手法を使用します。このブログ記事では、DDPOが生まれた経緯、その動作方法の簡単な説明、およびRLHFワークフローにDDPOを組み込んで人間の美意識により整合したモデルの出力を達成する方法について説明します。そして、新たに統合されたDDPOTrainerとtrlライブラリを使用してモデルにDDPOを適用する方法について、Stable Diffusionでの実行結果を検討します。 DDPOの利点 DDPOは、RLを使用して拡散モデルを微調整する方法に関する唯一の有効な回答ではありません。入る前に、他のRLソリューションとの利点の理解に関して覚えておくべき2つの重要なポイントがあります。…