KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

KAISTとGoogleの研究者は、CSDを導入しましたこれは、テキストから画像への拡散モデルの単数形を拡張したAIの手法です

テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与えられたテキストを使用して高品質でリアルかつ多様な画像の合成能力を驚異的に示しています。また、画像から画像への変換、制御された生成、カスタマイズなど、さまざまなアプリケーションにも展開されています。この分野での最新の使用例の1つは、モダリティ固有のトレーニングデータを利用して、拡散モデルを変更せずに2D画像を超えた他の複雑なモダリティに広げる能力です。本研究は、事前に学習されたテキストから画像への拡散モデルの知識を使用して、モダリティ固有のトレーニングデータを利用した2D画像を超えた高次元の視覚生成タスクに対してますます挑戦し、高次元の視覚生成タスクに対応するための課題に取り組むことを目指しています。

彼らは、多くの複雑な視覚データが、特定のモダリティに固有の一貫性に制約された画像の集合として表現できる可能性があるという予感から始めます。たとえば、3Dシーンは、ビューの一貫性を持つ複数のビューフレームの集合であり、映画は時間的な一貫性を持つフレームの集合です。残念ながら、彼らの生成サンプリング手法は、画像の拡散モデルを利用する際に一貫性を考慮していないため、画像の合成や編集のための画像のグループ全体にわたる一貫性を保証する能力を持っていません。その結果、一貫性を考慮せずにこれらの複雑なデータに画像の拡散モデルを適用すると、図1(パッチごとのクロップ)で見られるように、写真が継ぎ合わされた箇所が明確にわかるような、より一貫性のある結果となる可能性があります。

図1: パノラマ画像の修正:上部右側の切り抜かれたパッチでは、Instruct-Pix2Pixは不安定な画像編集を行います。(3行目)高いガイドスケールyでも、MultiDiffusionを使用したInstruct-Pix2Pixは一貫した画像を編集しますが、指示に対する忠実度は低下します。第3行適切なガイドスケールを選択することで、CSD-Editは指示に対する忠実度が高い一貫した画像編集を提供します。

このような振る舞いは、ビデオ編集でも見られます。したがって、後続の研究では、画像の拡散モデルを採用してビデオ固有の時間的一貫性に対応することが提案されています。ここで、彼らはスコア蒸留サンプリング(SDS)と呼ばれる新しい戦略に注目しています。SDSは、テキストから画像への拡散モデルの豊富な生成事前知識を利用して、異なる可能な演算子を最適化する問題として生成サンプリングの課題を設定します。他の研究者は、SDSがNeural Radiance Fields事前知識を使用してテキストから3Dオブジェクトを生成する際にその有効性を示していますが、これは3D空間で一貫したジオメトリを仮定する密度モデリングを介しています。しかし、他のモダリティの一貫した視覚合成についてはまだ調査されていません。

本研究では、KAISTとGoogle Researchの研究者が、信頼性の高い視覚合成のためのテキストから画像への拡散モデルの潜在能力を拡張する直感的かつ効率的な手法であるCollaborative Score Distillation(CSD)を提案しています。彼らのアプローチの鍵は、まず、Stein変動勾配降下法(SVGD)を使用して、複数のサンプルが拡散モデルから得られた情報を共有することで、サンプル間の一貫性を達成することでSDSを一般化することです。第二に、CSD-Editという、最近開発された指示による画像拡散モデルであるInstruct-Pix2Pixを組み合わせた一貫した視覚編集のための強力な手法を提供します。

彼らは、パノラマ画像の編集、ビデオ編集、および3Dシーンの再構築など、さまざまなアプリケーションを使用して、彼らの手法の適応性を示しています。彼らは、CSD-alterが複数の画像パッチを最大化することで空間的一貫性を持つパノラマ画像を変更することができることを示しました。さらに、彼らの手法は、以前の手法と比較して指示の正確さとソース-ターゲット画像の一貫性のバランスを優れたものにしています。ビデオ編集の実験では、CSD-Editは複数のフレームを最適化することで時間的な一貫性を実現し、時間フレームに一貫したビデオ編集を行います。また、CSD-Editを使用して3Dシーンを生成および編集し、さまざまな視点での一貫性を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

この中国のAI研究は、ベートーヴェン、クレオパトラ女王、ユリウス・カエサルなど特定の人物として振る舞うようにLLMを教えるCharacter-LLMを紹介しています

Character-LLMは、プロフィールの編集とモデルのトレーニングを行うことによって特定の個人をシミュレートするためのトレーニ...

AI研究

KAISTの研究者らが「SyncDiffusion」を提案:知覚的な類似度の損失関数から勾配降下法を使って複数の拡散を同期させるためのプラグアンドプレイモジュールです

最近の研究論文では、KAISTの研究者チームが、事前学習済みの拡散モデルを使用して、パノラマ画像の生成を向上させる画期的な...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...

コンピュータサイエンス

「ナノフォトニクスがカメラレンズを平らにする」

「ナノスケールメタ光学は、スマートフォンから隆起を取り除きながら、より良いイメージングの可能性を秘めています」

機械学習

「Open Interpreterに会ってください:OpenAIのコードインタプリタのオープンソースのローカル実行実装」

プログラミングとソフトウェア開発の絶え間ない進化の中で、効率的で柔軟かつアクセスしやすいツールへの需要はこれまでにな...

機械学習

Google DeepMindは、ChatGPTを超えるアルゴリズムの開発に取り組んでいます

画期的な発表により、GoogleのDeepMind AI研究所のCEOであるデミス・ハサビス氏は、革新的なAIシステムであるGeminiの開発を...