マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

Microsoft researchers presented a comprehensive and versatile AI framework titled 'InstructDiffusion' for aligning computer vision tasks with human instructions.

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。

InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。

このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。

このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル(DDPM)です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。

キーポイント検出

a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。

セグメンテーション

a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。

画像編集

モデルによって生成された画像の結果

低レベルタスク

InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。

実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能(AGI)にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。

異なるタスクを同時にトレーニングすることで、モデルの一般化能力が顕著に向上することが明らかになりました。InstructDiffusionは、トレーニングデータとは異なるデータ分布を持つHumanArtとAP-10K animalデータセットにおいて、キーポイント検出の分野で優れた能力を発揮しました。

研究チームは、モデルの一般化能力を向上させるために、非常に詳細な指示の重要性を強調しました。単なる「意味的セグメンテーション」といったタスク名では、特に新しいデータタイプでは劣ったパフォーマンスを示しました。これは、InstructDiffusionが詳細な指示の特定の意味と意図を把握する能力を持ち、記憶に頼らないことを強調しています。

記憶よりも理解を重視することで、InstructDiffusionは堅牢な視覚的概念と意味を学習します。この区別は、その顕著な一般化能力を理解する上で重要です。例えば、「赤い色で猫の左耳を囲む」という指示は、モデルが「猫」、「左耳」、「赤い円」といった具体的な要素を識別できることを示し、その精緻な理解力を示しています。

この画期的な開発により、コンピュータビジョンモデルは多目的な汎用モデルに向けて進化し、人間の知覚に似たものとなります。InstructDiffusionのインターフェースは、現在のほとんどのビジョンシステムには欠けている柔軟性と対話性を導入し、コンピュータビジョンにおける人間と機械の理解のギャップを埋める役割を果たします。この研究の意義は深遠であり、能力を持つ多目的ビジョンエージェントの開発に道を開き、一般的な視覚知能を新たな高みに押し上げる可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習評価指標 理論と概要」

「機械学習における評価指標の高度な探索とその重要性」

AIニュース

「従業員は職場でChatGPTを望む上司は秘密を漏らすことを心配している」

一部の企業リーダーは、会社や顧客の機密情報が公開されることへの懸念から、生成型人工知能ツールの使用を禁止しています

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...

機械学習

「ニューラルネットワークの探索」

AIの力を解き放つ:ニューラルネットワークとその応用のガイド

データサイエンス

マシンラーニング手法の鉄道欠陥検索への応用(パート2)

「超音波フローパターンによる鉄道レールの釘穴部の放射状クラックの検出に機械学習手法の応用を探求する」(Chōonpa furō pat...

AI研究

トヨタのAIにより、電気自動車の設計がより迅速になりました

トヨタ研究所(TRI)は、車両設計の世界で発表を行いました。彼らは、画期的な生成型人工知能(AI)技術を発表し、電気自動車...