CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います

[美容とファッション専門家が解説]「CMU&Google DeepMindの研究者たちが新たなAI技術を導入!AlignPropを活用した画像生成モデルの最適化に成功」

確率的拡散モデルは、連続的な領域における生成モデリングの確立された基準となっています。テキストから画像への拡散モデルの先駆者であるDALLEは、幅広いウェブ規模のデータセットで訓練することで画像を生成する能力が評価されています。本論文では、画像生成の最先端であるテキストから画像への拡散モデルの最近の台頭について説明しています。これらのモデルは大規模な非監督学習または弱教師付きのテキストから画像へのデータセットで訓練されてきました。ただし、非監督学習の性質上、人間によって知覚される画像の品質、画像とテキストの整列、倫理的な画像生成といった下流タスクの制御は困難な課題です。

最近の研究では、強化学習技術を使用して拡散モデルを微調整する試みが行われてきましたが、この手法は勾配推定子の高い分散性で知られています。そこで、本論文では「AlignProp」という方法を紹介しています。この方法では、ノイズ除去プロセス中に報酬勾配をエンドツーエンドで逆伝播することで、拡散モデルを下流の報酬関数と整列させます。

AlignPropの先進的なアプローチにより、現代のテキストから画像へのモデルを逆伝播するのに通常伴う高いメモリ要件を軽減しています。これは、低ランクアダプターウェイトモジュールの微調整と勾配チェックポイントの実装によって実現しています。

本論文では、AlignPropの性能を画像テキスト意味の整合性、美学、画像の圧縮性、生成される画像のオブジェクトの数の制御性やこれらの目的の組み合わせなど、さまざまな目的に対して微調整した拡散モデルの性能を評価しています。その結果、AlignPropは他の手法よりも高い報酬をより少ない訓練ステップで達成することが示されています。さらに、その概念的な単純さでも評価されており、興味のある異なる報酬関数に基づいて拡散モデルを最適化するための明確な選択肢となっています。

AlignPropのアプローチは、拡散モデルの微調整のために報酬関数から得られる勾配を利用することにより、サンプリング効率と計算効率の両方の向上をもたらします。実施された実験は、AlignPropがプロンプトのみでは単独で定義するのが困難なタスクを含む、幅広い報酬関数の最適化において、AlignPropの効果を一貫して実証しています。将来的な研究方向としては、これらの原則を言語モデルベースの拡散に拡張し、ヒューマンフィードバックとの整合性を向上させることが考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェン...

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

機械学習

BITEとは 1枚の画像から立ち姿や寝そべりのようなポーズなど、困難なポーズでも3D犬の形状とポーズを再構築する新しい手法

生物学や保全、エンターテインメントや仮想コンテンツの開発など、多くの分野で3D動物の形状や態度を捕捉してモデリングする...

AI研究

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保す...

AIニュース

ユーザーエクスペリエンスの向上:インタラクティブなチャットボットにOpenAIアシスタントAPIを実装する

イントロダクション OpenAIによるChatGPTとGPT 3モデルの導入により、世界はAIを統合したアプリケーションの使用にシフトしま...