「生成AIの布地を調整する:FABRICは反復的なフィードバックで拡散モデルを個別化するAIアプローチです」

AIアプローチFABRICは、生成AIの布地を調整するために反復的なフィードバックで拡散モデルを個別化します

ジェネラティブAIは、今では私たち全員が馴染みのある用語です。最近、彼らは大きく進化し、多くのアプリケーションで重要なツールとなっています。

ジェネラティブAIの主役は拡散モデルです。これらは強力なジェネラティブモデルの一種として登場し、画像合成や関連するタスクを革新しています。これらのモデルは、高品質かつ多様な画像を生成することで、驚異的なパフォーマンスを示しています。GANやVAEなどの従来のジェネラティブモデルとは異なり、拡散モデルはノイズ源を反復的に洗練することで、安定した一貫した画像生成を実現しています。

拡散モデルは、トレーニング中の高品質な画像生成とモードの崩壊の削減において、大きな注目を集めています。これにより、画像合成、インペイント、スタイル転送など、さまざまなドメインでの広範な採用と応用が実現されています。

しかし、完璧ではありません。印象的な能力にも関わらず、拡散モデルの課題の1つは、テキストの説明に基づいてモデルを特定の望ましい出力に効果的に誘導することです。テキストのプロンプトを通じて好みを正確に説明することは通常困難であり、時には不十分であったり、モデルがそれらを無視し続けることもあります。そのため、通常は生成された画像を洗練させて利用可能にする必要があります。

しかし、あなたはモデルに何を描かせたいのかを知っています。したがって、理論的には、生成された画像の品質、それが想像にどれだけ近いかを評価するのに最適な人物です。私たちが見たいものをモデルが理解できるように、このフィードバックを画像生成パイプラインに統合できればどうでしょうか?それでは、FABRICに出会う時がきました。

FABRIC(Attention-Based Reference Image Conditioningを介したフィードバック)は、拡散モデルの生成プロセスに反復的なフィードバックの統合を可能にする新しいアプローチです。

FABRICは、ユーザーフィードバックに基づいて機能します。出典: https://arxiv.org/pdf/2307.10159.pdf

FABRICは、以前の世代または人間の入力から収集された肯定的および否定的なフィードバック画像を利用します。これにより、将来の結果を洗練するためにリファレンスイメージを利用した調整が可能となります。この反復的なワークフローにより、ユーザーの好みに基づいて生成された画像を微調整し、より制御可能かつインタラクティブなテキストから画像への生成プロセスを提供します。

FABRICは、ControlNetに触発されており、リファレンスイメージに似た新しい画像を生成する能力を導入しました。 FABRICは、U-Net内の自己注意モジュールを活用し、画像内の他のピクセルに「注意」を向け、リファレンスイメージから追加情報を注入することができます。リファレンスイメージを通過させて、Stable DiffusionのU-Netを介してキーと値を計算し、これらのキーと値をU-Netの自己注意層に保存することで、ノイズ除去プロセスがリファレンスイメージに注意を向け、意味情報を組み込むことができます。

FABRICの概要。出典: https://arxiv.org/pdf/2307.10159.pdf

さらに、FABRICは、マルチラウンドの肯定的および否定的なフィードバックを組み込むために拡張されており、好きな画像と嫌いな画像ごとに別々のU-Netパスが実行され、フィードバックに基づいて注目スコアが再重み付けされます。フィードバックプロセスは、ノイズ除去ステップに従ってスケジュールされるため、生成された画像の反復的な洗練が可能となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

デジタルネイティブ(クラウドで生まれた人々)のデータストリーミングの現状

クラウドに生まれたデジタルネイティブを探索し、イノベーションと新しいビジネスモデルにApache Kafkaを活用し、トレンド、...

機械学習

「新しいHADARベースのイメージングツールにより、暗闇でもクリアに見ることができます」

ロボットや自律型車両が最も暗い夜でも容易に移動できる世界を想像してみてください。それは熱シグナルを知覚するAIによって...

AIニュース

AIが宇宙へ!NASAがChatGPTのようなチャットボットを宇宙船通信に導入予定

興味深い進展として、NASAのエンジニアたちは地球の境界を超えて人工知能(AI)を宇宙にもたらす取り組みを始めています。最...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

AIテクノロジー

フリートテクノロジーのためのAI駆動エッジインサイトの実装

「エッジインサイトをフリートテクノロジーに導入し、効率と安全性を向上させ、ドライバーとフリートマネージャーにほぼリア...

機械学習

詳細に説明されたLlama 2:Metaの大型言語モデル!

MetaのLlama 2についてもっと知りたいですか?ここには基礎から高度な仕様まで、すべてを網羅した初心者向けガイドがあります