マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

Microsoft researchers presented a comprehensive and versatile AI framework titled 'InstructDiffusion' for aligning computer vision tasks with human instructions.

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。

InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。

このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。

このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル(DDPM)です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。

キーポイント検出

a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。

セグメンテーション

a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。

画像編集

モデルによって生成された画像の結果

低レベルタスク

InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。

実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能(AGI)にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。

異なるタスクを同時にトレーニングすることで、モデルの一般化能力が顕著に向上することが明らかになりました。InstructDiffusionは、トレーニングデータとは異なるデータ分布を持つHumanArtとAP-10K animalデータセットにおいて、キーポイント検出の分野で優れた能力を発揮しました。

研究チームは、モデルの一般化能力を向上させるために、非常に詳細な指示の重要性を強調しました。単なる「意味的セグメンテーション」といったタスク名では、特に新しいデータタイプでは劣ったパフォーマンスを示しました。これは、InstructDiffusionが詳細な指示の特定の意味と意図を把握する能力を持ち、記憶に頼らないことを強調しています。

記憶よりも理解を重視することで、InstructDiffusionは堅牢な視覚的概念と意味を学習します。この区別は、その顕著な一般化能力を理解する上で重要です。例えば、「赤い色で猫の左耳を囲む」という指示は、モデルが「猫」、「左耳」、「赤い円」といった具体的な要素を識別できることを示し、その精緻な理解力を示しています。

この画期的な開発により、コンピュータビジョンモデルは多目的な汎用モデルに向けて進化し、人間の知覚に似たものとなります。InstructDiffusionのインターフェースは、現在のほとんどのビジョンシステムには欠けている柔軟性と対話性を導入し、コンピュータビジョンにおける人間と機械の理解のギャップを埋める役割を果たします。この研究の意義は深遠であり、能力を持つ多目的ビジョンエージェントの開発に道を開き、一般的な視覚知能を新たな高みに押し上げる可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「エンパワーリング・インサイト: マイクロソフトのデータ分析のためのファブリックの潜在能力を解き放つ」

「Microsoft Fabricを探索することは、SQLサーバー以来の最も重要なデータプラットフォームの革新ですその構成要素、利点、お...

データサイエンス

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能(AI)は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、...

機械学習

「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべ...

AIニュース

「人工知能(AI)のトップコンテンツ検出ツール」

人工知能(AI)および自然言語処理(NLP)の技術は、AIコンテンツの検出プロセスで使用され、テキストのコンテンツを自動的に...