「拡散モデルの助けを借りて、画像間の補間を組み込むためのAI研究」についてのAI研究

AI research on incorporating interpolation between images using a diffusion model

人工知能は、開発者や研究者の間で最新の話題です。自然言語処理や自然言語理解からコンピュータビジョンまで、AIはほぼすべてのドメインを革新しています。最近のDALL-Eなどの大規模言語モデルは、テキストのプロンプトから美しい画像を生成するのに成功しています。画像の生成と操作には大きな進歩があるものの、現在使用されている画像生成パイプラインでは、2つの入力画像の間の補間はできません。

画像生成モデルに補間機能を追加することで、新しい革新的なアプリケーションが実現できます。最近、MIT CSAILの研究チームが、事前学習された潜在拡散モデルを使用して、さまざまなドメインとレイアウトの画像間で高品質な補間を行うための戦略を提案する研究論文を公開しました。彼らは、潜在拡散モデルを使用したゼロショット補間の含まれ方が、どのように役立つかを共有しています。彼らの戦略は、2つの入力画像の対応する潜在表現の間で補間を行うことで、生成モデルの潜在空間で作業することを含んでいます。

補間手順は、ノイズの異なる段階で進行的に下方向に行われます。ここで、ノイズとは、潜在ベクトルに適用されるランダムな摂動であり、生成された画像の外観に影響を与えます。研究者たちは、補間を完了した後に、追加ノイズの影響を最小化するために補間された表現をデノイズする方法を共有しています。これにより、補間された画像の改善が図られます。

デノイズステージでは、テキスト反転で得られた補間されたテキスト埋め込みが必要です。テキスト反転によって、書かれた説明は等価の視覚的特徴に変換され、モデルが意図した補間の特性を理解することができます。主体のポーズは意図的に組み込まれており、モデルが写真内のオブジェクトや人物の配置と向きに関する情報を提供するように、補間手順を指示するのに役立ちます。

この手法は、高品質の結果と柔軟性を保証するために、複数の候補補間を生成することができます。画像とテキストの内容を理解することができるニューラルネットワークであるCLIPを使用して、これらの候補を対比し、特定の要件やユーザーの好みに基づいて最適な補間を選択することができます。主体のポーズ、画像スタイル、画像コンテンツなど、さまざまな設定で、この手法が信じられる補間を提供することをチームは示しています。

チームは、生成された画像の品質を評価するために一般的に使用されるFID(フレシェ・インセプション・ディスタンス)などの従来の定量的指標は、補間の品質を測定するためには不十分であると共有しています。導入されたパイプラインは、テキスト条件付け、ノイズスケジューリング、作成された候補から手動で選択する選択肢などを通じて、ユーザーに大きな柔軟性を提供するため、有用で容易に展開可能です。

結論として、この研究は、画像編集の領域でほとんど注目されていなかった問題に取り組んでいます。この戦略では、すでに訓練された潜在拡散モデルが使用され、他の補間手法や定性的な結果と比較して、その有効性が示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

XGen-Image-1の内部:Salesforce Researchが巨大なテキストから画像へのモデルを構築、トレーニング、評価する方法

Salesforceは、新しい基盤モデルの最も活発な研究所の一つです最近、Salesforce Researchは、異なるドメインにわたるさまざま...

AI研究

「量子ブースト:cuQuantumとPennyLaneによるスーパーコンピュータ上でのシミュレーション」

ロングアイランドの大西洋岸から10マイル離れた場所で、Shinjae Yooさんはエンジンを回転させています。 彼はアメリカエネル...

データサイエンス

データセットシフトのフレームワークの整理:例

「最近、モデルの性能低下の原因について話しましたこれは、私たちがモデルをトレーニングして展開した時点と比較して予測品...

AIニュース

パーソナライズされたA.I.エージェントがここにあります世界は彼らに対して準備ができていますか?

「自律型AIアシスタントの時代は、大きな影響をもたらす可能性があります」

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...