KAISTとGoogleの研究者は、コラボレーションスコア蒸留（CSD）を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

KAISTとGoogleの研究者は、CSDを導入しましたこれは、テキストから画像への拡散モデルの単数形を拡張したAIの手法です

テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与えられたテキストを使用して高品質でリアルかつ多様な画像の合成能力を驚異的に示しています。また、画像から画像への変換、制御された生成、カスタマイズなど、さまざまなアプリケーションにも展開されています。この分野での最新の使用例の1つは、モダリティ固有のトレーニングデータを利用して、拡散モデルを変更せずに2D画像を超えた他の複雑なモダリティに広げる能力です。本研究は、事前に学習されたテキストから画像への拡散モデルの知識を使用して、モダリティ固有のトレーニングデータを利用した2D画像を超えた高次元の視覚生成タスクに対してますます挑戦し、高次元の視覚生成タスクに対応するための課題に取り組むことを目指しています。

彼らは、多くの複雑な視覚データが、特定のモダリティに固有の一貫性に制約された画像の集合として表現できる可能性があるという予感から始めます。たとえば、3Dシーンは、ビューの一貫性を持つ複数のビューフレームの集合であり、映画は時間的な一貫性を持つフレームの集合です。残念ながら、彼らの生成サンプリング手法は、画像の拡散モデルを利用する際に一貫性を考慮していないため、画像の合成や編集のための画像のグループ全体にわたる一貫性を保証する能力を持っていません。その結果、一貫性を考慮せずにこれらの複雑なデータに画像の拡散モデルを適用すると、図1（パッチごとのクロップ）で見られるように、写真が継ぎ合わされた箇所が明確にわかるような、より一貫性のある結果となる可能性があります。

**図1:** パノラマ画像の修正：上部右側の切り抜かれたパッチでは、Instruct-Pix2Pixは不安定な画像編集を行います。（3行目）高いガイドスケールyでも、MultiDiffusionを使用したInstruct-Pix2Pixは一貫した画像を編集しますが、指示に対する忠実度は低下します。第3行適切なガイドスケールを選択することで、CSD-Editは指示に対する忠実度が高い一貫した画像編集を提供します。

このような振る舞いは、ビデオ編集でも見られます。したがって、後続の研究では、画像の拡散モデルを採用してビデオ固有の時間的一貫性に対応することが提案されています。ここで、彼らはスコア蒸留サンプリング（SDS）と呼ばれる新しい戦略に注目しています。SDSは、テキストから画像への拡散モデルの豊富な生成事前知識を利用して、異なる可能な演算子を最適化する問題として生成サンプリングの課題を設定します。他の研究者は、SDSがNeural Radiance Fields事前知識を使用してテキストから3Dオブジェクトを生成する際にその有効性を示していますが、これは3D空間で一貫したジオメトリを仮定する密度モデリングを介しています。しかし、他のモダリティの一貫した視覚合成についてはまだ調査されていません。

本研究では、KAISTとGoogle Researchの研究者が、信頼性の高い視覚合成のためのテキストから画像への拡散モデルの潜在能力を拡張する直感的かつ効率的な手法であるCollaborative Score Distillation（CSD）を提案しています。彼らのアプローチの鍵は、まず、Stein変動勾配降下法（SVGD）を使用して、複数のサンプルが拡散モデルから得られた情報を共有することで、サンプル間の一貫性を達成することでSDSを一般化することです。第二に、CSD-Editという、最近開発された指示による画像拡散モデルであるInstruct-Pix2Pixを組み合わせた一貫した視覚編集のための強力な手法を提供します。

彼らは、パノラマ画像の編集、ビデオ編集、および3Dシーンの再構築など、さまざまなアプリケーションを使用して、彼らの手法の適応性を示しています。彼らは、CSD-alterが複数の画像パッチを最大化することで空間的一貫性を持つパノラマ画像を変更することができることを示しました。さらに、彼らの手法は、以前の手法と比較して指示の正確さとソース-ターゲット画像の一貫性のバランスを優れたものにしています。ビデオ編集の実験では、CSD-Editは複数のフレームを最適化することで時間的な一貫性を実現し、時間フレームに一貫したビデオ編集を行います。また、CSD-Editを使用して3Dシーンを生成および編集し、さまざまな視点での一貫性を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickLanguage modelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

KAISTとGoogleの研究者は、コラボレーションスコア蒸留（CSD）を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

Was this article helpful?

スタンフォードの研究者が提案する「EVAPORATE：言語モデルの推論コストを110倍削減する新しいAIアプローチ」

「マイクロソフトの新しいAI手法による分子の動きと機能の予測」

AI研究

「データサイエンティストのためのAI Chrome拡張のトップ10（2023年）」

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers（DiTs）」

Google AIがAdaTapeを導入：トランスフォーマーベースのアーキテクチャを持ち、適応的なテープトークンを通じてニューラルネットワークでの動的な計算を可能にする新しいAIアプローチ

「TADAをご紹介します口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

GoogleのSymbol Tuningは、LLM（Language Learning Models）におけるIn-Context Learningを行う新しいFine-Tuningテクニックです

「DIRFAは、オーディオクリップをリアルなデジタル顔に変換する」