CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います

[美容とファッション専門家が解説]「CMU&Google DeepMindの研究者たちが新たなAI技術を導入!AlignPropを活用した画像生成モデルの最適化に成功」

確率的拡散モデルは、連続的な領域における生成モデリングの確立された基準となっています。テキストから画像への拡散モデルの先駆者であるDALLEは、幅広いウェブ規模のデータセットで訓練することで画像を生成する能力が評価されています。本論文では、画像生成の最先端であるテキストから画像への拡散モデルの最近の台頭について説明しています。これらのモデルは大規模な非監督学習または弱教師付きのテキストから画像へのデータセットで訓練されてきました。ただし、非監督学習の性質上、人間によって知覚される画像の品質、画像とテキストの整列、倫理的な画像生成といった下流タスクの制御は困難な課題です。

最近の研究では、強化学習技術を使用して拡散モデルを微調整する試みが行われてきましたが、この手法は勾配推定子の高い分散性で知られています。そこで、本論文では「AlignProp」という方法を紹介しています。この方法では、ノイズ除去プロセス中に報酬勾配をエンドツーエンドで逆伝播することで、拡散モデルを下流の報酬関数と整列させます。

AlignPropの先進的なアプローチにより、現代のテキストから画像へのモデルを逆伝播するのに通常伴う高いメモリ要件を軽減しています。これは、低ランクアダプターウェイトモジュールの微調整と勾配チェックポイントの実装によって実現しています。

本論文では、AlignPropの性能を画像テキスト意味の整合性、美学、画像の圧縮性、生成される画像のオブジェクトの数の制御性やこれらの目的の組み合わせなど、さまざまな目的に対して微調整した拡散モデルの性能を評価しています。その結果、AlignPropは他の手法よりも高い報酬をより少ない訓練ステップで達成することが示されています。さらに、その概念的な単純さでも評価されており、興味のある異なる報酬関数に基づいて拡散モデルを最適化するための明確な選択肢となっています。

AlignPropのアプローチは、拡散モデルの微調整のために報酬関数から得られる勾配を利用することにより、サンプリング効率と計算効率の両方の向上をもたらします。実施された実験は、AlignPropがプロンプトのみでは単独で定義するのが困難なタスクを含む、幅広い報酬関数の最適化において、AlignPropの効果を一貫して実証しています。将来的な研究方向としては、これらの原則を言語モデルベースの拡散に拡張し、ヒューマンフィードバックとの整合性を向上させることが考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Open Interpreterに会ってください:OpenAIのコードインタプリタのオープンソースのローカル実行実装」

プログラミングとソフトウェア開発の絶え間ない進化の中で、効率的で柔軟かつアクセスしやすいツールへの需要はこれまでにな...

AIニュース

「AI自動化と性別格差:AIが女性労働者に与える影響」

人工知能(AI)の進歩により、労働の未来が再構築されつつあります。AIによる自動化による仕事の喪失への恐怖は広まっていま...

データサイエンス

データから洞察へ:データ分析のための生成AIの活用

「生成AIはデータ分析を革新し、生成AIのデータ分析への影響を探求し、組織が情報に基づいた意思決定にデータを活用する方法...

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

データサイエンス

「多数から少数へ:機械学習における次元削減による高次元データの取り扱い」

この記事では、機械学習の問題における次元の呪いと、その問題の解決策としての次元削減について議論します時には、機械学習...

データサイエンス

「AWS Partition Projections Athenaクエリのパフォーマンス向上」

この記事では、AWS Athenaクエリのパフォーマンス向上の分析と、パーティションプロジェクション機能の利点について説明します