「拡散モデルの助けを借りて、画像間の補間を組み込むためのAI研究」についてのAI研究

AI research on incorporating interpolation between images using a diffusion model

人工知能は、開発者や研究者の間で最新の話題です。自然言語処理や自然言語理解からコンピュータビジョンまで、AIはほぼすべてのドメインを革新しています。最近のDALL-Eなどの大規模言語モデルは、テキストのプロンプトから美しい画像を生成するのに成功しています。画像の生成と操作には大きな進歩があるものの、現在使用されている画像生成パイプラインでは、2つの入力画像の間の補間はできません。

画像生成モデルに補間機能を追加することで、新しい革新的なアプリケーションが実現できます。最近、MIT CSAILの研究チームが、事前学習された潜在拡散モデルを使用して、さまざまなドメインとレイアウトの画像間で高品質な補間を行うための戦略を提案する研究論文を公開しました。彼らは、潜在拡散モデルを使用したゼロショット補間の含まれ方が、どのように役立つかを共有しています。彼らの戦略は、2つの入力画像の対応する潜在表現の間で補間を行うことで、生成モデルの潜在空間で作業することを含んでいます。

補間手順は、ノイズの異なる段階で進行的に下方向に行われます。ここで、ノイズとは、潜在ベクトルに適用されるランダムな摂動であり、生成された画像の外観に影響を与えます。研究者たちは、補間を完了した後に、追加ノイズの影響を最小化するために補間された表現をデノイズする方法を共有しています。これにより、補間された画像の改善が図られます。

デノイズステージでは、テキスト反転で得られた補間されたテキスト埋め込みが必要です。テキスト反転によって、書かれた説明は等価の視覚的特徴に変換され、モデルが意図した補間の特性を理解することができます。主体のポーズは意図的に組み込まれており、モデルが写真内のオブジェクトや人物の配置と向きに関する情報を提供するように、補間手順を指示するのに役立ちます。

この手法は、高品質の結果と柔軟性を保証するために、複数の候補補間を生成することができます。画像とテキストの内容を理解することができるニューラルネットワークであるCLIPを使用して、これらの候補を対比し、特定の要件やユーザーの好みに基づいて最適な補間を選択することができます。主体のポーズ、画像スタイル、画像コンテンツなど、さまざまな設定で、この手法が信じられる補間を提供することをチームは示しています。

チームは、生成された画像の品質を評価するために一般的に使用されるFID(フレシェ・インセプション・ディスタンス)などの従来の定量的指標は、補間の品質を測定するためには不十分であると共有しています。導入されたパイプラインは、テキスト条件付け、ノイズスケジューリング、作成された候補から手動で選択する選択肢などを通じて、ユーザーに大きな柔軟性を提供するため、有用で容易に展開可能です。

結論として、この研究は、画像編集の領域でほとんど注目されていなかった問題に取り組んでいます。この戦略では、すでに訓練された潜在拡散モデルが使用され、他の補間手法や定性的な結果と比較して、その有効性が示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

人間だけが解決できるAIの課題

彼らの新しい書籍「Power and Progress」で、ダロン・アセモグルとサイモン・ジョンソンは、人工知能の利点が広く共有される...

人工知能

「人工知能と自由意志」

人工知能の非凡な能力は今や明白です例えば、チェスをプレイするような特定のことは、AIがどんな人間よりも優れて行えますし...

データサイエンス

データスクレイピングが注目されています:言語モデルは皆のコンテンツをトレーニングすることで飛び越えているのでしょうか?

この記事の調査をまとめ、執筆を始めようとしたとき、OpenAIはそれにぴったりの発表を行いました彼らはChatGPTの「Browse wit...

機械学習

「Googleと一緒にジェネレーティブAIを学びましょう」

「Googleの10の無料コースでジェネラティブAIを学びましょう拡散モデル、エンコーダーデコーダーアーキテクチャ、アテンショ...

機械学習

2024年に探索するべきトップ12の生成 AI モデル

はじめに 近年、人工知能(AI)は非凡な変革を遂げ、創造性の風景を再構築するだけでなく、多様な産業における自動化の新たな...

機械学習

ニューラル輝度場の不確実性をどのように測定できますか?BayesRaysを紹介します:NeRFの革命的な事後フレームワーク

3Dモデルの作成は、2D画像よりも没入感とリアルな表現を提供します。これにより、視点を変えてシーンを探索し、対話すること...