マイクロソフトとETHチューリッヒの研究者が「HoloAssist」を紹介:物理世界の次世代AIコパイロットのためのマルチモーダルデータセット
「マイクロソフトとETHチューリッヒの研究者が「HoloAssist」を紹介:次世代AIコパイロットのための物理世界のマルチモーダルデータセット」
人工知能の分野において、対話型のAIアシスタントを開発し、現実世界のタスクを効果的にナビゲートし、支援することは、ずっと課題となっていました。言語モデルなどのデジタルドメインでは重要な進展がなされてきましたが、物理的な世界にはAIシステムにとって困難な要素があります。
研究者たちがよく直面する主な障害は、AIアシスタントが物理的な世界での直接の経験を持たないことであり、それによって物理的なタスクの認識、推論、アクティブな支援ができないというものです。この制約は、物理的なタスクのAIモデルの訓練に特定のデータが必要であるという点によるものです。
この問題に対処するため、マイクロソフトとETHチューリッヒの研究チームは、画期的なデータセット「HoloAssist」を開発しました。このデータセットは、現実世界の第一人称視点でのヒューマンインタラクションのシナリオに焦点を当てて構築されています。タスク実行者がミックスリアリティヘッドセットを着用し、タスクインストラクターがリアルタイムで観察し、言語による指示を提供する状況を含んでいます。
HoloAssistは、222人の多様な参加者と共に166時間の録音データを収集し、20のオブジェクト中心の操作タスクを完了する350のインストラクターとパフォーマーよるユニークなペアを形成しました。これらのタスクには、日常の電子機器から特殊な産業用品まで幅広いオブジェクトが含まれています。データセットは、RGB、デプス、ヘッドポーズ、3Dハンドポーズ、アイゲイズ、オーディオ、IMUなど、7つの同期したセンサーモダリティをキャプチャし、ヒューマンアクションと意図の包括的な理解を提供しています。さらに、テキストの要約、介入タイプ、間違いの注釈といった第三者によるマニュアルアノテーションも提供されています。
HoloAssistは、従来のデータセットとは異なり、複数の人物が関わる対話型のタスク実行環境を持つという特徴があります。これにより、予測的で主体的なAIアシスタントの開発が可能となります。これらのアシスタントは、環境に根ざしたタイムリーな指示を提供し、従来の「チャットベース」のAIアシスタントモデルをより高度にすることができます。
研究チームは、データセットのパフォーマンスをアクション分類と予測タスクで評価し、さまざまなタスクにおける異なるモダリティの重要性を示す経験的な結果を提供しました。さらに、間違い検出、介入タイプの予測、および3Dハンドポーズの予測といった、インテリジェントアシスタントの開発に不可欠な要素に焦点を当てた新たなベンチマークを導入しました。
まとめると、この研究は、インテリジェントエージェントが現実世界のタスクで人間と協力する方法を探求するための初のステップを踏み出したものです。HoloAssistデータセットと関連するベンチマークとツールは、日常の現実世界のタスクに強力なAIアシスタントを構築するための研究の推進に寄与し、数多くの未来の研究方向を開くことが期待されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles