ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

「ノースイースタン大学＆MITのAI論文：画像生成制御のための解釈可能なコンセプトスライダー開発」

芸術的なテキストから画像までの拡散モデルの利用者は、通常、生成された画像に表現される視覚的特徴と概念において細かい制御が必要ですが、現在は実現不可能です。単純なテキストのプロンプトを使用して、個人の年齢や天候の強度などの連続的な品質を正確に修正するのは難しい場合があります。この制約により、プロデューサーはイメージをより良く反映させるために画像を修正することが難しくなります。マサチューセッツ工科大学と独立研究者からなるノースイースタン大学の研究チームは、この研究で解釈可能なアイデアスライダーを提案し、拡散モデル内で詳細なアイデアの操作を可能にします。彼らのアプローチは、アーティストに高品質な制御と生成画像の提供を可能にします。研究チームは、トレーニングされたスライダーとコードをオープンソースで提供します。コンセプトスライダーは、他のアプローチが十分に対応する必要があるいくつかの問題に対して複数の解決策を提供します。

多くの画像プロパティは、プロンプトを変更することで直接制御することができますが、出力はプロンプトとシードの組み合わせに対して感度があり、プロンプトを変更すると画像の全体的な構造が大きく変化する場合があります。PromptToPromptやPix2Videoなどの事後処理手法では、異なるビジュアル概念を変えるためにクロスアテンションを変更し、拡散プロセスを反転させることができます。ただし、これらの手法は同時に変更できる数が制限されており、新しいアイデアごとに独立した推論ステップが必要です。研究チームは、単純で汎用的な制御を学習する代わりに、特定の画像に適したプロンプトを設計する必要があります。適切にプロンプトされなければ、年齢が変わると同時に人種も変わるなどの概念的な絡み合いが生じる可能性があります。

一方、コンセプトスライダーは、軽量で事前トレーニングされたモデルに適用できる簡単なプラグアンドプレイのアダプターを提供します。これにより、一度の推論実行で目的の概念を正確かつ連続的に制御し、エンタングルメントが少なく効率的な組み合わせを実現できます。各コンセプトスライダーは、ランクの低い拡散モデルの変更です。研究チームは、低ランク制約が概念の精度制御において重要な要素であることを発見しています。低ランクトレーニングにより、最小の概念部分空間が特定され、高品質で制御されたディスエンタングル編集が生成されます。一方、低ランク正則化なしでのファインチューニングは、精度と生成画像の品質を低下させます。この低ランクフレームワークは、モデルのパラメータではなく個々の写真に対応する事後処理の画像変更技術には適用されません。

コンセプトスライダーは、これまでのテキストに頼る既存の概念編集技術とは異なり、書かれた説明によって表現されない視覚的概念の変更を可能にします。画像ベースのモデルカスタマイズ技術は画像編集において課題がありますが、研究チームは新しいトークンを導入することで新しい画像ベースの概念を表現できるようにしています。一方、概念スライダーでは、アーティストがいくつかのペアの写真で望ましい概念を指定できます。その後、コンセプトスライダーは視覚的概念を一般化し、他の画像に適用します。そのような画像では、変化を言葉で表現することが不可能な場合でも、変化を適用できます（図1を参照）。以前の研究では、GANのような他の生成画像モデルには、生成された出力に対して高度なディスエンタングル制御を提供する潜在的な領域が含まれていることが示されています。

図1は、さまざまなテキストプロンプトまたはマッチした画像データの範囲内で、他の品質への干渉を最小限に抑えたフォーカスされたアイデア制御のための拡散パラメータ空間での低ランク方向を見つける手法を示しています。これらの方向は、複雑なマルチ属性制御のために組み合わせることができ、アーティストによって作成された相反するテキスト概念またはビジュアルのペアから形成することができます。ディスエンタングルスタイルGANの潜在領域を拡散モデルに転送し、スタブルディフュージョンの出力で歪んだ手を修正することで、研究者は自身のアプローチの効果を示しています。

具体的には、StyleGANのスタイルスペースニューロンは、言葉でうまく説明することの難しい画像のいくつかの重要な特徴に対して、細かい制御が可能であることが示されています。研究チームは、FFHQの顔写真でトレーニングされたStyleGANのスタイル空間の潜在的な方向を拡散モデルに転送することが可能であり、彼らの手法の可能性をさらに示しています。興味深いことに、彼らのアプローチは、顔データセットからのものであっても、異なる画像生成にわたって微妙なスタイル制御を提供するようにこれらの潜在的な空間を適応させることに成功しています。これは、拡散モデルがGANの潜在的な視覚的概念を表現できることを示しています。書かれた説明はなくても表現できます。

研究者らは、コンセプトスライダーの表現力が、リアリズムの向上と手の変形の修正という2つの有用なアプリケーションを処理するのに十分であることを示しています。生成モデルは、リアルな画像合成を実現するために大きな進歩を遂げてきましたが、最新の拡散モデルであるStable Diffusion XLも、歪んだ顔、浮いたオブジェクト、歪んだパースペクティブ、さらには解剖学的に不合理な余分な指や欠損した指を生み出す傾向がまだあります。研究チームは知覚的なユーザースタディにより、2つのコンセプトスライダー、「固定された手」と「リアルな画像」によって、画像の実際的なリアリズムが統計的に有意に向上することを確認していますが、画像の本質を変えることはありません。

コンセプトスライダーは組み立てられ、分解することができます。研究チームは、50以上の異なるスライダーを作成することが可能であり、出力品質を犠牲にすることなく行うことがわかりました。この適応性により、アーティストたちは多くのテキスト、ビジュアル、GANで定義されたコンセプトスライダーを組み合わせることができるため、微妙な画像制御の新たな世界が開けます。彼らの技術は、通常のプロンプトトークンの制約を超えることができるため、テキストだけでは提供できないより複雑な編集を可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

Was this article helpful?

Google DeepMind（グーグルディープマインド）が「GNoME（グノーム）」を発表：新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

「2024年に必ず試してみるべきトップ15のベクターデータベース」

機械学習

「AIツールを使用してマイクロサービス開発の生産性を向上させる」

「クロード2 AIチャットボットの使い方 - 新しいChatGPTの競合者」

OpenAIのCEOであるSam Altman氏：AIの力が証明されるにつれて、仕事に関するリスクが生じる

AI導入の迷宮を進む

DeepMindのAIマスターゲーマー：2時間で26のゲームを学習

最初のマシンアンラーニングチャレンジを発表します