「生成AIの布地を調整する:FABRICは反復的なフィードバックで拡散モデルを個別化するAIアプローチです」

AIアプローチFABRICは、生成AIの布地を調整するために反復的なフィードバックで拡散モデルを個別化します

ジェネラティブAIは、今では私たち全員が馴染みのある用語です。最近、彼らは大きく進化し、多くのアプリケーションで重要なツールとなっています。

ジェネラティブAIの主役は拡散モデルです。これらは強力なジェネラティブモデルの一種として登場し、画像合成や関連するタスクを革新しています。これらのモデルは、高品質かつ多様な画像を生成することで、驚異的なパフォーマンスを示しています。GANやVAEなどの従来のジェネラティブモデルとは異なり、拡散モデルはノイズ源を反復的に洗練することで、安定した一貫した画像生成を実現しています。

拡散モデルは、トレーニング中の高品質な画像生成とモードの崩壊の削減において、大きな注目を集めています。これにより、画像合成、インペイント、スタイル転送など、さまざまなドメインでの広範な採用と応用が実現されています。

しかし、完璧ではありません。印象的な能力にも関わらず、拡散モデルの課題の1つは、テキストの説明に基づいてモデルを特定の望ましい出力に効果的に誘導することです。テキストのプロンプトを通じて好みを正確に説明することは通常困難であり、時には不十分であったり、モデルがそれらを無視し続けることもあります。そのため、通常は生成された画像を洗練させて利用可能にする必要があります。

しかし、あなたはモデルに何を描かせたいのかを知っています。したがって、理論的には、生成された画像の品質、それが想像にどれだけ近いかを評価するのに最適な人物です。私たちが見たいものをモデルが理解できるように、このフィードバックを画像生成パイプラインに統合できればどうでしょうか?それでは、FABRICに出会う時がきました。

FABRIC(Attention-Based Reference Image Conditioningを介したフィードバック)は、拡散モデルの生成プロセスに反復的なフィードバックの統合を可能にする新しいアプローチです。

FABRICは、ユーザーフィードバックに基づいて機能します。出典: https://arxiv.org/pdf/2307.10159.pdf

FABRICは、以前の世代または人間の入力から収集された肯定的および否定的なフィードバック画像を利用します。これにより、将来の結果を洗練するためにリファレンスイメージを利用した調整が可能となります。この反復的なワークフローにより、ユーザーの好みに基づいて生成された画像を微調整し、より制御可能かつインタラクティブなテキストから画像への生成プロセスを提供します。

FABRICは、ControlNetに触発されており、リファレンスイメージに似た新しい画像を生成する能力を導入しました。 FABRICは、U-Net内の自己注意モジュールを活用し、画像内の他のピクセルに「注意」を向け、リファレンスイメージから追加情報を注入することができます。リファレンスイメージを通過させて、Stable DiffusionのU-Netを介してキーと値を計算し、これらのキーと値をU-Netの自己注意層に保存することで、ノイズ除去プロセスがリファレンスイメージに注意を向け、意味情報を組み込むことができます。

FABRICの概要。出典: https://arxiv.org/pdf/2307.10159.pdf

さらに、FABRICは、マルチラウンドの肯定的および否定的なフィードバックを組み込むために拡張されており、好きな画像と嫌いな画像ごとに別々のU-Netパスが実行され、フィードバックに基づいて注目スコアが再重み付けされます。フィードバックプロセスは、ノイズ除去ステップに従ってスケジュールされるため、生成された画像の反復的な洗練が可能となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

システムデザインシリーズ:ゼロから高性能データストリーミングシステムを構築するための究極のガイド!

「データストリーミング」は非常に複雑な印象を受けますし、「データストリーミングパイプライン」なんてなおさらです専門用...

人工知能

AIにおいて大胆であることは、最初から責任を持つことを意味します

GoogleのJames Manyika氏は、Googleが人々と社会に利益をもたらすためにAIを責任ある形で適用する方法について話しています

人工知能

ChatGPTを使用して、忘れられないスローガンを作成する

「ブランドを完璧に象徴するスローガンを作り出すことは、大変な要求ですこのChatGPTのプロンプトを使ってお手伝いしましょう」

データサイエンス

SIGGRAPH特別講演:NVIDIAのCEOがLAショーに生成AIをもたらす

生成AIがますますデジタルでハイパーコネクテッドな世界に広がる中、NVIDIAの創設者兼CEOであるJensen Huang氏は、世界最高の...

機械学習

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を...

機械学習

「GCPの生成AI機能を活用して変革するBFSIサービス」

「ジェネラティブAI(Gen AI)サービスがクラウドプラットフォーム上で収束することで、BFSIセクターなどの産業革新に前例の...