スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル

スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル

生成型の基礎モデルは、特定のタイプの入力データに似た新しいデータを生成するために設計された人工知能モデルのクラスです。これらのモデルは、自然言語処理、コンピュータビジョン、音楽生成など、さまざまな分野で使用されることがあります。彼らは、トレーニングデータから基礎となるパターンや構造を学び、その知識を使用して新しい似たようなデータを生成します。

生成型の基礎モデルは、画像合成、テキスト生成、推薦システム、薬物探索など、さまざまな応用があります。彼らは常に進化し、生成能力の向上、より多様で高品質な出力の生成、可制御性の向上、および使用に関連する倫理的な問題の理解など、その応用能力を向上させるために研究者が取り組んでいます。

Stanford大学、Northeastern大学、Salesforce AI研究所の研究者たちは、UniControlを開発しました。これは、野生での制御可能なビジュアル生成のための統一拡散モデルであり、言語とさまざまな視覚条件を同時に扱うことができます。UniControlは、複数のタスクを同時に処理し、さまざまな視覚条件をユニバーサルな表現空間にエンコードし、タスク間で共通の構造を探求する必要があります。UniControlは、他のタスクや言語プロンプトから幅広い視覚条件を受け取る必要があります。

UniControlは、視覚要素が主な役割を果たし、言語のプロンプトがスタイルと文脈を指示することにより、ピクセルパーフェクトな精度で画像の生成を提供します。研究チームは、UniControlがさまざまな視覚シナリオを管理する能力を向上させるために、事前学習されたテキストから画像への拡散モデルを拡大しました。さらに、彼らはタスクに関する認識能力を持つHyperNetを組み込み、異なる視覚条件に基づいて複数の画像生成タスクに適応することができるようにしました。

彼らのモデルは、ControlNetよりも3Dジオメトリガイドの深さマップや表面法線の微妙な理解を示しています。深さマップ条件により、より正確な出力が生じます。セグメンテーション、openpose、および物体のバウンディングボックスのタスク中、彼らのモデルによって生成された画像は、ControlNetによって生成された画像よりも与えられた条件によりよく整列し、入力プロンプトに対して高い忠実度を確保します。実験結果は、UniControlが同等のモデルサイズを持つ単一タスク制御法の性能をしばしば上回ることを示しています。

UniControlは、ControlNetのさまざまな視覚条件を統合し、新たに見たことのないタスクでゼロショット学習を実行することができます。現在のところ、UniControlは単一の視覚条件のみを受け入れるが、複数のタスクを同時に実行し、ゼロショット学習も可能です。これは、その汎用性と広範な採用の可能性を示しています。

ただし、彼らのモデルはまだ拡散ベースの画像生成モデルの制限を継承しています。具体的には、研究者のトレーニングデータはLaion-Aestheticsデータセットの一部から取得されたものであり、データバイアスがかかっています。UniControlは、バイアスのある、有毒な、性的な、または他の有害なコンテンツの作成をブロックするために、より良いオープンソースのデータセットが利用可能であれば改善することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」

「大規模言語モデル」の深層学習は、入力に基づいて自然言語のコンテンツを予測するために開発されました。これらのモデルの...

機械学習

予測モデルの構築:Pythonにおけるロジスティック回帰

著者によるイメージ 機械学習を始めるとき、ロジスティック回帰は最初にツールボックスに追加するアルゴリズムの一つですこ...

AI研究

UCIと浙江大学の研究者は、ドラフティングと検証のステージを使用した自己推測デコーディングによるロスレスな大規模言語モデルの高速化を紹介しました

トランスフォーマーに基づく大規模言語モデル(LLM)は、GPT、PaLM、LLaMAなど、さまざまな実世界のアプリケーションで広く使...

機械学習

「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...