CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います
[美容とファッション専門家が解説]「CMU&Google DeepMindの研究者たちが新たなAI技術を導入!AlignPropを活用した画像生成モデルの最適化に成功」
確率的拡散モデルは、連続的な領域における生成モデリングの確立された基準となっています。テキストから画像への拡散モデルの先駆者であるDALLEは、幅広いウェブ規模のデータセットで訓練することで画像を生成する能力が評価されています。本論文では、画像生成の最先端であるテキストから画像への拡散モデルの最近の台頭について説明しています。これらのモデルは大規模な非監督学習または弱教師付きのテキストから画像へのデータセットで訓練されてきました。ただし、非監督学習の性質上、人間によって知覚される画像の品質、画像とテキストの整列、倫理的な画像生成といった下流タスクの制御は困難な課題です。
最近の研究では、強化学習技術を使用して拡散モデルを微調整する試みが行われてきましたが、この手法は勾配推定子の高い分散性で知られています。そこで、本論文では「AlignProp」という方法を紹介しています。この方法では、ノイズ除去プロセス中に報酬勾配をエンドツーエンドで逆伝播することで、拡散モデルを下流の報酬関数と整列させます。
AlignPropの先進的なアプローチにより、現代のテキストから画像へのモデルを逆伝播するのに通常伴う高いメモリ要件を軽減しています。これは、低ランクアダプターウェイトモジュールの微調整と勾配チェックポイントの実装によって実現しています。
- 医療画像は黒い肌に失敗する研究者がそれを修正した
- 「ハリー・ポッターとは誰なのか?Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」
- 「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」
本論文では、AlignPropの性能を画像テキスト意味の整合性、美学、画像の圧縮性、生成される画像のオブジェクトの数の制御性やこれらの目的の組み合わせなど、さまざまな目的に対して微調整した拡散モデルの性能を評価しています。その結果、AlignPropは他の手法よりも高い報酬をより少ない訓練ステップで達成することが示されています。さらに、その概念的な単純さでも評価されており、興味のある異なる報酬関数に基づいて拡散モデルを最適化するための明確な選択肢となっています。
AlignPropのアプローチは、拡散モデルの微調整のために報酬関数から得られる勾配を利用することにより、サンプリング効率と計算効率の両方の向上をもたらします。実施された実験は、AlignPropがプロンプトのみでは単独で定義するのが困難なタスクを含む、幅広い報酬関数の最適化において、AlignPropの効果を一貫して実証しています。将来的な研究方向としては、これらの原則を言語モデルベースの拡散に拡張し、ヒューマンフィードバックとの整合性を向上させることが考えられます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です
- この人工知能による調査研究は、医療領域への大規模言語モデルの包括的な概要を提供します
- このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です
- アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新
- 「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」
- 大規模な言語モデルは本当に行動し思考できるのか?イリノイ大学アーバナ・シャンペーン校の研究者が意思決定の向上のためにLATSを導入
- 「どのようにして、1ビットのウェイトで大規模な言語モデルを効果的に圧縮できるのか?この人工知能の研究では、PB-LLMを提案しています:部分的にバイナリ化されたLLMの潜在能力を探索する」