KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

KAISTとGoogleの研究者は、CSDを導入しましたこれは、テキストから画像への拡散モデルの単数形を拡張したAIの手法です

テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与えられたテキストを使用して高品質でリアルかつ多様な画像の合成能力を驚異的に示しています。また、画像から画像への変換、制御された生成、カスタマイズなど、さまざまなアプリケーションにも展開されています。この分野での最新の使用例の1つは、モダリティ固有のトレーニングデータを利用して、拡散モデルを変更せずに2D画像を超えた他の複雑なモダリティに広げる能力です。本研究は、事前に学習されたテキストから画像への拡散モデルの知識を使用して、モダリティ固有のトレーニングデータを利用した2D画像を超えた高次元の視覚生成タスクに対してますます挑戦し、高次元の視覚生成タスクに対応するための課題に取り組むことを目指しています。

彼らは、多くの複雑な視覚データが、特定のモダリティに固有の一貫性に制約された画像の集合として表現できる可能性があるという予感から始めます。たとえば、3Dシーンは、ビューの一貫性を持つ複数のビューフレームの集合であり、映画は時間的な一貫性を持つフレームの集合です。残念ながら、彼らの生成サンプリング手法は、画像の拡散モデルを利用する際に一貫性を考慮していないため、画像の合成や編集のための画像のグループ全体にわたる一貫性を保証する能力を持っていません。その結果、一貫性を考慮せずにこれらの複雑なデータに画像の拡散モデルを適用すると、図1(パッチごとのクロップ)で見られるように、写真が継ぎ合わされた箇所が明確にわかるような、より一貫性のある結果となる可能性があります。

図1: パノラマ画像の修正:上部右側の切り抜かれたパッチでは、Instruct-Pix2Pixは不安定な画像編集を行います。(3行目)高いガイドスケールyでも、MultiDiffusionを使用したInstruct-Pix2Pixは一貫した画像を編集しますが、指示に対する忠実度は低下します。第3行適切なガイドスケールを選択することで、CSD-Editは指示に対する忠実度が高い一貫した画像編集を提供します。

このような振る舞いは、ビデオ編集でも見られます。したがって、後続の研究では、画像の拡散モデルを採用してビデオ固有の時間的一貫性に対応することが提案されています。ここで、彼らはスコア蒸留サンプリング(SDS)と呼ばれる新しい戦略に注目しています。SDSは、テキストから画像への拡散モデルの豊富な生成事前知識を利用して、異なる可能な演算子を最適化する問題として生成サンプリングの課題を設定します。他の研究者は、SDSがNeural Radiance Fields事前知識を使用してテキストから3Dオブジェクトを生成する際にその有効性を示していますが、これは3D空間で一貫したジオメトリを仮定する密度モデリングを介しています。しかし、他のモダリティの一貫した視覚合成についてはまだ調査されていません。

本研究では、KAISTとGoogle Researchの研究者が、信頼性の高い視覚合成のためのテキストから画像への拡散モデルの潜在能力を拡張する直感的かつ効率的な手法であるCollaborative Score Distillation(CSD)を提案しています。彼らのアプローチの鍵は、まず、Stein変動勾配降下法(SVGD)を使用して、複数のサンプルが拡散モデルから得られた情報を共有することで、サンプル間の一貫性を達成することでSDSを一般化することです。第二に、CSD-Editという、最近開発された指示による画像拡散モデルであるInstruct-Pix2Pixを組み合わせた一貫した視覚編集のための強力な手法を提供します。

彼らは、パノラマ画像の編集、ビデオ編集、および3Dシーンの再構築など、さまざまなアプリケーションを使用して、彼らの手法の適応性を示しています。彼らは、CSD-alterが複数の画像パッチを最大化することで空間的一貫性を持つパノラマ画像を変更することができることを示しました。さらに、彼らの手法は、以前の手法と比較して指示の正確さとソース-ターゲット画像の一貫性のバランスを優れたものにしています。ビデオ編集の実験では、CSD-Editは複数のフレームを最適化することで時間的な一貫性を実現し、時間フレームに一貫したビデオ編集を行います。また、CSD-Editを使用して3Dシーンを生成および編集し、さまざまな視点での一貫性を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

WhatsAppチャットで言語モデルを構築しましょう

チャットボットは、デジタルプラットフォームとのやり取りを確実に変えてきました高度な言語モデルの能力の向上にもかかわら...

データサイエンス

「Skill-it」とは、言語モデルの理解とトレーニングのためのデータ駆動型スキルフレームワークです

大規模言語モデル(LM)は、ソースコードの作成、オリジナルの芸術作品の作成、人との対話など、非常に能力が高いです。モデ...

データサイエンス

グループ化および空間計量データの混合効果機械学習におけるGPBoost

GPBoostを用いたグループ化されたおよび地域空間計量データの混合効果機械学習 - ヨーロッパのGDPデータを用いたデモ

機械学習

「生成AI技術によって広まる気候情報の誤情報の脅威」

「生成AIが気候の誤情報を広げる方法を探求し、気候論議への影響に対抗するための具体的な戦略を学びましょう」

AIニュース

「トップのGPTとAIコンテンツ検出器」

GPTZero 教育者やAI生成文章の特定に興味のある他の人々は、GPTZeroというツールを使用することができます。 GPTZeroには、論...

機械学習

「言語モデルにおける連鎖思考推論の力を明らかにする 認知能力、解釈可能性、自律言語エージェントに関する包括的な調査」

上海交通大学、Amazon Web Services、イェール大学による研究は、言語エージェントにおけるチェーンオブソート(CoT)技術の...