スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル
スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル
生成型の基礎モデルは、特定のタイプの入力データに似た新しいデータを生成するために設計された人工知能モデルのクラスです。これらのモデルは、自然言語処理、コンピュータビジョン、音楽生成など、さまざまな分野で使用されることがあります。彼らは、トレーニングデータから基礎となるパターンや構造を学び、その知識を使用して新しい似たようなデータを生成します。
生成型の基礎モデルは、画像合成、テキスト生成、推薦システム、薬物探索など、さまざまな応用があります。彼らは常に進化し、生成能力の向上、より多様で高品質な出力の生成、可制御性の向上、および使用に関連する倫理的な問題の理解など、その応用能力を向上させるために研究者が取り組んでいます。
Stanford大学、Northeastern大学、Salesforce AI研究所の研究者たちは、UniControlを開発しました。これは、野生での制御可能なビジュアル生成のための統一拡散モデルであり、言語とさまざまな視覚条件を同時に扱うことができます。UniControlは、複数のタスクを同時に処理し、さまざまな視覚条件をユニバーサルな表現空間にエンコードし、タスク間で共通の構造を探求する必要があります。UniControlは、他のタスクや言語プロンプトから幅広い視覚条件を受け取る必要があります。
- チャットボットに関する不正行為の懸念は誇張されていたと、新しい研究が示唆しています
- SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ
- インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています
UniControlは、視覚要素が主な役割を果たし、言語のプロンプトがスタイルと文脈を指示することにより、ピクセルパーフェクトな精度で画像の生成を提供します。研究チームは、UniControlがさまざまな視覚シナリオを管理する能力を向上させるために、事前学習されたテキストから画像への拡散モデルを拡大しました。さらに、彼らはタスクに関する認識能力を持つHyperNetを組み込み、異なる視覚条件に基づいて複数の画像生成タスクに適応することができるようにしました。
彼らのモデルは、ControlNetよりも3Dジオメトリガイドの深さマップや表面法線の微妙な理解を示しています。深さマップ条件により、より正確な出力が生じます。セグメンテーション、openpose、および物体のバウンディングボックスのタスク中、彼らのモデルによって生成された画像は、ControlNetによって生成された画像よりも与えられた条件によりよく整列し、入力プロンプトに対して高い忠実度を確保します。実験結果は、UniControlが同等のモデルサイズを持つ単一タスク制御法の性能をしばしば上回ることを示しています。
UniControlは、ControlNetのさまざまな視覚条件を統合し、新たに見たことのないタスクでゼロショット学習を実行することができます。現在のところ、UniControlは単一の視覚条件のみを受け入れるが、複数のタスクを同時に実行し、ゼロショット学習も可能です。これは、その汎用性と広範な採用の可能性を示しています。
ただし、彼らのモデルはまだ拡散ベースの画像生成モデルの制限を継承しています。具体的には、研究者のトレーニングデータはLaion-Aestheticsデータセットの一部から取得されたものであり、データバイアスがかかっています。UniControlは、バイアスのある、有毒な、性的な、または他の有害なコンテンツの作成をブロックするために、より良いオープンソースのデータセットが利用可能であれば改善することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました
- グーグルの研究者たちは、差分プライバシーを持つ機械学習システムの監査において、新たなシングルランアプローチを発表しました
- アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした
- 「Phi-2解放:コンパクトで輝かしい言語モデル」
- ジェンAIに関するトップ10の研究論文
- 「このAI研究は、グラフ上の大規模言語モデル(LLM)について包括的な概要を共有します」
- スタンフォード大学の研究者が、多様な視覚的な概念に対する現行モデルの解釈性と生成能力を向上させるための新しい人工知能フレームワークを紹介しました