マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

Microsoft researchers presented a comprehensive and versatile AI framework titled 'InstructDiffusion' for aligning computer vision tasks with human instructions.

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。

InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。

このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。

このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル(DDPM)です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。

キーポイント検出

a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。

セグメンテーション

a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。

画像編集

モデルによって生成された画像の結果

低レベルタスク

InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。

実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能(AGI)にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。

異なるタスクを同時にトレーニングすることで、モデルの一般化能力が顕著に向上することが明らかになりました。InstructDiffusionは、トレーニングデータとは異なるデータ分布を持つHumanArtとAP-10K animalデータセットにおいて、キーポイント検出の分野で優れた能力を発揮しました。

研究チームは、モデルの一般化能力を向上させるために、非常に詳細な指示の重要性を強調しました。単なる「意味的セグメンテーション」といったタスク名では、特に新しいデータタイプでは劣ったパフォーマンスを示しました。これは、InstructDiffusionが詳細な指示の特定の意味と意図を把握する能力を持ち、記憶に頼らないことを強調しています。

記憶よりも理解を重視することで、InstructDiffusionは堅牢な視覚的概念と意味を学習します。この区別は、その顕著な一般化能力を理解する上で重要です。例えば、「赤い色で猫の左耳を囲む」という指示は、モデルが「猫」、「左耳」、「赤い円」といった具体的な要素を識別できることを示し、その精緻な理解力を示しています。

この画期的な開発により、コンピュータビジョンモデルは多目的な汎用モデルに向けて進化し、人間の知覚に似たものとなります。InstructDiffusionのインターフェースは、現在のほとんどのビジョンシステムには欠けている柔軟性と対話性を導入し、コンピュータビジョンにおける人間と機械の理解のギャップを埋める役割を果たします。この研究の意義は深遠であり、能力を持つ多目的ビジョンエージェントの開発に道を開き、一般的な視覚知能を新たな高みに押し上げる可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「NYUの研究者たちはゲノミクスのためのニューラルネットワークを作成し、それが予測にどのように辿り着くかを説明できることを示しました」

生物学的研究领域中,机器学习模型正在在推动我们对复杂过程的理解方面取得重要进展,尤其是在RNA剪接方面。然而,这个领域许...

コンピュータサイエンス

「アレクサ、学生たちは A.I. について何を学ぶべきですか?」

学校が強力な新しいA.I.ツールについて生徒に何を教えるかを議論する一方で、テックジャイアント、大学、非営利団体が無料の...

機械学習

このNVIDIAのAI論文は、検索補完と長い文脈の力を探求しています:どちらが優れているのか、そしてそれらは共存できるのか?

ナビディアの研究者たちは、大規模言語モデル(LLM)のパフォーマンスにおける検索補完とコンテキストウィンドウサイズの影響...

データサイエンス

サムスンはAIとビッグデータを採用し、チップ製造プロセスを革新します

世界的なメモリチップメーカーであるSamsung Electronics Co.は、最先端の人工知能(AI)とビッグデータ技術を活用して、チッ...

人工知能

3日間でAIアプリを作成しました

ChatGPTに感銘を受けた後、ユーザーのスキルを求人要件にマッチさせて、カスタマイズされた適切な応募書類を自動化する革新的...

機械学習

Google AIは、アーキテクチャシミュレータにさまざまな種類の検索アルゴリズムを接続するための、マシンラーニングのためのオープンソースのジム「ArchGym」を紹介しました

コンピュータアーキテクチャの研究は、コンピュータシステムの設計を評価および影響するためのシミュレータやツールを生み出...