KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です
KAISTとGoogleの研究者は、CSDを導入しましたこれは、テキストから画像への拡散モデルの単数形を拡張したAIの手法です
テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与えられたテキストを使用して高品質でリアルかつ多様な画像の合成能力を驚異的に示しています。また、画像から画像への変換、制御された生成、カスタマイズなど、さまざまなアプリケーションにも展開されています。この分野での最新の使用例の1つは、モダリティ固有のトレーニングデータを利用して、拡散モデルを変更せずに2D画像を超えた他の複雑なモダリティに広げる能力です。本研究は、事前に学習されたテキストから画像への拡散モデルの知識を使用して、モダリティ固有のトレーニングデータを利用した2D画像を超えた高次元の視覚生成タスクに対してますます挑戦し、高次元の視覚生成タスクに対応するための課題に取り組むことを目指しています。
彼らは、多くの複雑な視覚データが、特定のモダリティに固有の一貫性に制約された画像の集合として表現できる可能性があるという予感から始めます。たとえば、3Dシーンは、ビューの一貫性を持つ複数のビューフレームの集合であり、映画は時間的な一貫性を持つフレームの集合です。残念ながら、彼らの生成サンプリング手法は、画像の拡散モデルを利用する際に一貫性を考慮していないため、画像の合成や編集のための画像のグループ全体にわたる一貫性を保証する能力を持っていません。その結果、一貫性を考慮せずにこれらの複雑なデータに画像の拡散モデルを適用すると、図1(パッチごとのクロップ)で見られるように、写真が継ぎ合わされた箇所が明確にわかるような、より一貫性のある結果となる可能性があります。
このような振る舞いは、ビデオ編集でも見られます。したがって、後続の研究では、画像の拡散モデルを採用してビデオ固有の時間的一貫性に対応することが提案されています。ここで、彼らはスコア蒸留サンプリング(SDS)と呼ばれる新しい戦略に注目しています。SDSは、テキストから画像への拡散モデルの豊富な生成事前知識を利用して、異なる可能な演算子を最適化する問題として生成サンプリングの課題を設定します。他の研究者は、SDSがNeural Radiance Fields事前知識を使用してテキストから3Dオブジェクトを生成する際にその有効性を示していますが、これは3D空間で一貫したジオメトリを仮定する密度モデリングを介しています。しかし、他のモダリティの一貫した視覚合成についてはまだ調査されていません。
- スタンフォードの研究者が提案する「EVAPORATE:言語モデルの推論コストを110倍削減する新しいAIアプローチ」
- スタンフォード大学の新しい人工知能研究は、説明が意思決定時のAIシステムへの過度の依存を軽減する方法を示しています
- CMUの研究者が「Zeno」という名前の、機械学習(ML)モデルの行動評価のためのフレームワークを紹介しました
本研究では、KAISTとGoogle Researchの研究者が、信頼性の高い視覚合成のためのテキストから画像への拡散モデルの潜在能力を拡張する直感的かつ効率的な手法であるCollaborative Score Distillation(CSD)を提案しています。彼らのアプローチの鍵は、まず、Stein変動勾配降下法(SVGD)を使用して、複数のサンプルが拡散モデルから得られた情報を共有することで、サンプル間の一貫性を達成することでSDSを一般化することです。第二に、CSD-Editという、最近開発された指示による画像拡散モデルであるInstruct-Pix2Pixを組み合わせた一貫した視覚編集のための強力な手法を提供します。
彼らは、パノラマ画像の編集、ビデオ編集、および3Dシーンの再構築など、さまざまなアプリケーションを使用して、彼らの手法の適応性を示しています。彼らは、CSD-alterが複数の画像パッチを最大化することで空間的一貫性を持つパノラマ画像を変更することができることを示しました。さらに、彼らの手法は、以前の手法と比較して指示の正確さとソース-ターゲット画像の一貫性のバランスを優れたものにしています。ビデオ編集の実験では、CSD-Editは複数のフレームを最適化することで時間的な一貫性を実現し、時間フレームに一貫したビデオ編集を行います。また、CSD-Editを使用して3Dシーンを生成および編集し、さまざまな視点での一貫性を促進します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました
- スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています
- 研究者たちは、画期的な自己感知人工筋肉を開発しました
- チューリッヒ大学の研究者たちは、スイスの4つの公用語向けの多言語言語モデルであるSwissBERTを開発しました
- 「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」
- 「SimCLRの最大の問題を修正する〜BYOL論文の解説」
- 「信頼性の高い医療用AIツールの開発」