「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

「夢を実現するためにDreamSyncとお会いしませんか:画像理解モデルからのフィードバックを活用したテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキテクチャの変更、または強化学習の必要性を排除して、拡散ベースのテキストから画像への変換(T2I)モデルにおける整列と美的魅力の向上の問題に取り組むDreamSyncを紹介しました。これは、候補画像を生成し、Visual Question Answering(VQA)モデルを使用して評価し、テキストから画像へのモデルを微調整することにより、その目的を達成しています。

以前の研究では、TIFAなどのVQAモデルを使用してT2I生成を評価することが提案されていました。 TIFAでは、4Kのプロンプトと25Kの質問を使用して、12のカテゴリにわたる評価を実施できます。 SeeTrueやRLHFなどのトレーニング関連手法やトレーニングアダプタなどは、T2Iの整列に取り組んでいます。 SynGenやStructuralDiffusionなどのトレーニングフリーテクニックは、整列の推論を調整します。

DreamSyncは、特定のアーキテクチャやラベル付きデータに依存せずに、ユーザーの意図と美的な魅力に対する忠実度を向上させるT2Iモデルの課題に取り組むためのモデル非依存のフレームワークを採用しています。ビジュアル-言語モデル(VLM)を利用して生成された画像と入力テキストとの相違点を特定するモデル非依存のフレームワークを導入しています。この方法では、複数の候補画像を作成し、VLMを使用して評価し、T2Iモデルを微調整します。 DreamSyncはベースラインの手法を上回る画像の整列を提供し、さまざまな画像特性を向上させることができ、整列改善に限定されない応用範囲を持っています。

DreamSyncは、VLMからのフィードバックを使用してT2I生成の整列を行うためのモデル非依存のフレームワークを採用しています。このプロセスでは、プロンプトから複数の候補画像を生成し、それらをテキストの忠実度と画像の美的魅力のために専用のVLMで評価します。 VLMのフィードバックによって選択された最良の画像は、収束するまで反復してT2Iモデルを微調整するために使用されます。また、反復的なブートストラッピングを導入し、VLMを教師モデルとして使用して、T2Iモデルのトレーニングのためのラベルのないデータをラベル付けします。

DreamSyncは、SDXLとSD v1.4のT2Iモデルの両方を向上させ、SDXLの3つのイテレーションでは、TIFAで忠実度が1.7ポイントおよび3.7ポイント向上しました。ビジュアルの美的感覚も3.4ポイント向上しました。DreamSyncをSD v1.4に適用すると、TIFAで忠実度が1.0ポイント向上し、絶対スコアが1.7ポイント増加し、美的感覚が0.3ポイント向上します。比較研究では、DreamSyncは整列においてSDXLを上回り、より適切なコンポーネントを持つ画像と3.4個の正しい回答を生成します。それはTIFAとDSGのベンチマークで視覚的な忠実度を妥協することなく優れたものを達成し、反復による徐々の改善を示しています。

結論として、DreamSyncは難しいT2Iベンチマークで評価された多目的なフレームワークであり、配布内および配布外の設定の両方で整列と視覚的魅力の重要な改善を示しています。このフレームワークは、ビジョン-言語モデルからの二重フィードバックを組み込んでおり、人間の評価と好み予測モデルによって検証されています。

DreamSyncの将来の改善点には、ミスアライメントの特定のための詳細なアノテーション(バウンディングボックスなど)を使用したフィードバックの作成が含まれます。各イテレーションでプロンプトを調整することにより、テキストから画像への合成において特定の改善を目指します。言語構造と注意マップの探求により、属性-オブジェクトの結びつきを向上させることを目指しています。人間のフィードバックで報酬モデルをトレーニングすることで、生成された画像をユーザーの意図に合わせることができます。DreamSyncの応用範囲を他のモデルアーキテクチャに拡大し、パフォーマンスの評価および多様な設定での追加の研究を行うことは、現在の調査の領域です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ディープラーニングを用いたナノアレイの開発:特定の構造色を生み出すことができるナノホールアレイを設計する新しいAI手法」

色の多様性は、2つ以上の色の組み合わせによってさらに増加します。光は微細なナノ構造と相互作用し、複数の色の固有のパター...

AI研究

オープンAIのCEOであるサム・アルトマン氏が解任されました

驚きの展開となり、AI研究のリーディングカンパニーであるOpenAIは、共同創設者兼CEOのサム・オールトマン氏の解任を発表しま...

データサイエンス

「PyTorch ProfilerとTensorBoardを使用して、データ入力パイプラインのボトルネックを解消する」

「これは、GPUベースのPyTorchワークロードのパフォーマンス分析と最適化に関するシリーズ投稿の4番目の投稿ですこの投稿では...

人工知能

関数呼び出し:GPTチャットボットを何にでも統合する

OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用し...

機械学習

「生成モデルを本番環境に展開する際の3つの課題」

OpenAI、Google、Microsoft、Midjourney、StabilityAI、CharacterAIなど、誰もがテキストからテキスト、テキストから画像、画...

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...