マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

Microsoft researchers presented a comprehensive and versatile AI framework titled 'InstructDiffusion' for aligning computer vision tasks with human instructions.

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。

InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。

このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。

このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル(DDPM)です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。

キーポイント検出

a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。

セグメンテーション

a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。

画像編集

モデルによって生成された画像の結果

低レベルタスク

InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。

実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能(AGI)にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。

異なるタスクを同時にトレーニングすることで、モデルの一般化能力が顕著に向上することが明らかになりました。InstructDiffusionは、トレーニングデータとは異なるデータ分布を持つHumanArtとAP-10K animalデータセットにおいて、キーポイント検出の分野で優れた能力を発揮しました。

研究チームは、モデルの一般化能力を向上させるために、非常に詳細な指示の重要性を強調しました。単なる「意味的セグメンテーション」といったタスク名では、特に新しいデータタイプでは劣ったパフォーマンスを示しました。これは、InstructDiffusionが詳細な指示の特定の意味と意図を把握する能力を持ち、記憶に頼らないことを強調しています。

記憶よりも理解を重視することで、InstructDiffusionは堅牢な視覚的概念と意味を学習します。この区別は、その顕著な一般化能力を理解する上で重要です。例えば、「赤い色で猫の左耳を囲む」という指示は、モデルが「猫」、「左耳」、「赤い円」といった具体的な要素を識別できることを示し、その精緻な理解力を示しています。

この画期的な開発により、コンピュータビジョンモデルは多目的な汎用モデルに向けて進化し、人間の知覚に似たものとなります。InstructDiffusionのインターフェースは、現在のほとんどのビジョンシステムには欠けている柔軟性と対話性を導入し、コンピュータビジョンにおける人間と機械の理解のギャップを埋める役割を果たします。この研究の意義は深遠であり、能力を持つ多目的ビジョンエージェントの開発に道を開き、一般的な視覚知能を新たな高みに押し上げる可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

クロードAIに無料でアクセスする3つの方法

定期購読料なしで、主要な対話型AIモデルの1つを体験してください

データサイエンス

『NYU研究者が提案するGPQA 生物学、物理学、化学の3つの領域の専門家が作成した448の多肢選択問題からなる難解なデータセット』

大型言語モデル(LLM)は人工知能(AI)の最前線にあり、この急速に変化する分野で人間のスキルを凌駕する可能性を示していま...

データサイエンス

「あらゆるプロジェクトに適した機械学習ライブラリ」

「機械学習プロジェクトで使用できる多くのライブラリが存在しますプロジェクトで使用するライブラリについての包括的なガイ...

AIニュース

AIがUPSのパッケージ窃盗を監視しています

大手物流会社のUPSを含む他の企業も、玄関脇で盗難被害を減らすためのテクノロジーを導入し始めています

AI研究

スタンフォード大学の研究者が『FlashFFTConv』を導入:長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム

効率的な推論は、機械学習において長いシーケンスを取り扱う上での主要な困難です。最近では、畳み込みがシーケンスモデリン...

AIテクノロジー

AIを活用した「ディープフェイク」詐欺:ケララ州のスキャマーに対する継続的な戦い

最近数ヶ月間、ケララではAIによる「ディープフェイク」技術を悪用した巧妙な詐欺の増加が目撃されています。300人以上が驚異...