マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

Microsoft researchers presented a comprehensive and versatile AI framework titled 'InstructDiffusion' for aligning computer vision tasks with human instructions.

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。

InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。

このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。

このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル(DDPM)です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。

キーポイント検出

a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。

セグメンテーション

a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。

画像編集

モデルによって生成された画像の結果

低レベルタスク

InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。

実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能(AGI)にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。

異なるタスクを同時にトレーニングすることで、モデルの一般化能力が顕著に向上することが明らかになりました。InstructDiffusionは、トレーニングデータとは異なるデータ分布を持つHumanArtとAP-10K animalデータセットにおいて、キーポイント検出の分野で優れた能力を発揮しました。

研究チームは、モデルの一般化能力を向上させるために、非常に詳細な指示の重要性を強調しました。単なる「意味的セグメンテーション」といったタスク名では、特に新しいデータタイプでは劣ったパフォーマンスを示しました。これは、InstructDiffusionが詳細な指示の特定の意味と意図を把握する能力を持ち、記憶に頼らないことを強調しています。

記憶よりも理解を重視することで、InstructDiffusionは堅牢な視覚的概念と意味を学習します。この区別は、その顕著な一般化能力を理解する上で重要です。例えば、「赤い色で猫の左耳を囲む」という指示は、モデルが「猫」、「左耳」、「赤い円」といった具体的な要素を識別できることを示し、その精緻な理解力を示しています。

この画期的な開発により、コンピュータビジョンモデルは多目的な汎用モデルに向けて進化し、人間の知覚に似たものとなります。InstructDiffusionのインターフェースは、現在のほとんどのビジョンシステムには欠けている柔軟性と対話性を導入し、コンピュータビジョンにおける人間と機械の理解のギャップを埋める役割を果たします。この研究の意義は深遠であり、能力を持つ多目的ビジョンエージェントの開発に道を開き、一般的な視覚知能を新たな高みに押し上げる可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研...

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...

機械学習

T5 テキストからテキストへのトランスフォーマー(パート2)

BERT [5] の提案により、自然言語処理(NLP)のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化...

AI研究

韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩

この論文では、以前のモデルのさまざまな側面を改善することにより、より自然な音声を合成する単一ステージのテキストから音...

機械学習

メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム

自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して...

AIニュース

「ChatGPT4は人々の顔を認識して読み取る能力を持っていますOpenAIは、それがAIをあまりにも強力にすると懸念しています」

「OpenAIのChatGPTは、テキストだけでなく、人々の顔を認識し読み取ることも可能に進化しました」