「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

「夢を実現するためにDreamSyncとお会いしませんか:画像理解モデルからのフィードバックを活用したテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキテクチャの変更、または強化学習の必要性を排除して、拡散ベースのテキストから画像への変換(T2I)モデルにおける整列と美的魅力の向上の問題に取り組むDreamSyncを紹介しました。これは、候補画像を生成し、Visual Question Answering(VQA)モデルを使用して評価し、テキストから画像へのモデルを微調整することにより、その目的を達成しています。

以前の研究では、TIFAなどのVQAモデルを使用してT2I生成を評価することが提案されていました。 TIFAでは、4Kのプロンプトと25Kの質問を使用して、12のカテゴリにわたる評価を実施できます。 SeeTrueやRLHFなどのトレーニング関連手法やトレーニングアダプタなどは、T2Iの整列に取り組んでいます。 SynGenやStructuralDiffusionなどのトレーニングフリーテクニックは、整列の推論を調整します。

DreamSyncは、特定のアーキテクチャやラベル付きデータに依存せずに、ユーザーの意図と美的な魅力に対する忠実度を向上させるT2Iモデルの課題に取り組むためのモデル非依存のフレームワークを採用しています。ビジュアル-言語モデル(VLM)を利用して生成された画像と入力テキストとの相違点を特定するモデル非依存のフレームワークを導入しています。この方法では、複数の候補画像を作成し、VLMを使用して評価し、T2Iモデルを微調整します。 DreamSyncはベースラインの手法を上回る画像の整列を提供し、さまざまな画像特性を向上させることができ、整列改善に限定されない応用範囲を持っています。

DreamSyncは、VLMからのフィードバックを使用してT2I生成の整列を行うためのモデル非依存のフレームワークを採用しています。このプロセスでは、プロンプトから複数の候補画像を生成し、それらをテキストの忠実度と画像の美的魅力のために専用のVLMで評価します。 VLMのフィードバックによって選択された最良の画像は、収束するまで反復してT2Iモデルを微調整するために使用されます。また、反復的なブートストラッピングを導入し、VLMを教師モデルとして使用して、T2Iモデルのトレーニングのためのラベルのないデータをラベル付けします。

DreamSyncは、SDXLとSD v1.4のT2Iモデルの両方を向上させ、SDXLの3つのイテレーションでは、TIFAで忠実度が1.7ポイントおよび3.7ポイント向上しました。ビジュアルの美的感覚も3.4ポイント向上しました。DreamSyncをSD v1.4に適用すると、TIFAで忠実度が1.0ポイント向上し、絶対スコアが1.7ポイント増加し、美的感覚が0.3ポイント向上します。比較研究では、DreamSyncは整列においてSDXLを上回り、より適切なコンポーネントを持つ画像と3.4個の正しい回答を生成します。それはTIFAとDSGのベンチマークで視覚的な忠実度を妥協することなく優れたものを達成し、反復による徐々の改善を示しています。

結論として、DreamSyncは難しいT2Iベンチマークで評価された多目的なフレームワークであり、配布内および配布外の設定の両方で整列と視覚的魅力の重要な改善を示しています。このフレームワークは、ビジョン-言語モデルからの二重フィードバックを組み込んでおり、人間の評価と好み予測モデルによって検証されています。

DreamSyncの将来の改善点には、ミスアライメントの特定のための詳細なアノテーション(バウンディングボックスなど)を使用したフィードバックの作成が含まれます。各イテレーションでプロンプトを調整することにより、テキストから画像への合成において特定の改善を目指します。言語構造と注意マップの探求により、属性-オブジェクトの結びつきを向上させることを目指しています。人間のフィードバックで報酬モデルをトレーニングすることで、生成された画像をユーザーの意図に合わせることができます。DreamSyncの応用範囲を他のモデルアーキテクチャに拡大し、パフォーマンスの評価および多様な設定での追加の研究を行うことは、現在の調査の領域です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか?ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」

ディープラーニングは、音声認識から自律システム、コンピュータビジョン、自然言語処理まで、人工知能の中で強力で画期的な...

人工知能

音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?

導入 音楽の魅力的な世界では、創造性には制約がありません。クラシックの交響曲からモダンなエレクトロニックビートまで、そ...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

機械学習

「シャッターストックがNVIDIAピカソとともに生成AIを3Dシーンの背景に導入」

こんな感じです:Shutterstockの最新のツールを使って、クリエイターはジェネレーティブAIの助けを借りて、迅速にカスタマイ...

機械学習

「自己改善のための生成AIと強化学習の統合」

イントロダクション 人工知能の進化する領域において、二つの主要な要素が刷新を果たしました:生成型AIと強化学習。これらの...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...