「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

「Ego-Exo4D:ビデオ学習とマルチモーダルパーセプション研究を支えるための基礎データセットとベンチマークスイートの紹介」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上させてくれました。これまで想像もできなかったことを実現するため、人間のスキル理解をさらに向上させることができるかもしれません。この研究論文では、AIシステムをより優れた人間のスキル理解をするように装備することに焦点を当てています。

人間のスキルを捉えるためには、自己中心的(第一人称)および外向的(第三人称)の視点の両方を考慮する必要があります。さらに、これらの両者の間に連携が必要とされます。他人の行動を自分自身にマッピングすることは、より良い学習のために重要です。既存のデータセットは、自己-外向きのデータセットが非常に限られており、規模が小さく、カメラ間の同期がしばしば欠けているため、この潜在能力を実現するために十分に適していません。この問題に対処するために、Metaの研究者は、Ego-Exo4Dという基礎データセットを導入しました。これは多モーダル、多視点、大規模で、世界中の複数の都市からのさまざまなシーンで構成されています。

より良い理解のためには、時には両方の視点が必要です。たとえば、シェフが第三者の視点から機器を説明し、第一人称の視点から手の動きを見せる場合などです。したがって、より良い人間のスキルを達成するために、Ego-Exo4Dは各シーケンスに第一人称視点と複数の外向き視点を含んでいます。さらに、研究者たちは、すべての視点が時間的に同期していることを保証しています。マルチビューデータセットは、身体のポーズやオブジェクトとの相互作用を捉えるために作成されました。

Ego-Exo4Dは、身体のポーズの動きやオブジェクトとの相互作用を捉えるために、熟練した人間の活動に重点を置いています。このデータセットには、料理、自転車修理など、さまざまなドメインの多様な活動が含まれており、データはラボ環境ではなく本物の環境で収集されています。データの収集には、800人以上の参加者が募集され、堅牢なプライバシーと倫理基準が遵守されました。

このデータセットのすべてのビデオは時間に関連付けられています。つまり、カメラを着用した人物が自分の行動を説明し、第三者が各カメラの映像を説明し、第三者がカメラをつけた人物のパフォーマンスを批評するという特徴があり、他のデータセットとは異なる点です。さらに、トレーニング用の自己-外気データがない場合、熟練した活動の自己中心的な認識において主要な研究課題が生じます。そのため、研究者は、コミュニティがスタートするための出発点を提供するために、一連の基本的なベンチマークを考案しました。これらのベンチマークは、関係、認識、熟練度、自己ポーズの4つのタスクのファミリーに整理されています。

結論として、Ego-Exo4Dは、さまざまなドメインの熟練した人間の活動からなる、前例のない規模の包括的なデータセットです。これは従来のデータセットの欠点を補う、前例のないデータセットです。このデータセットは、活動認識、身体のポーズ推定、AIコーチングなどの多くの領域で応用され、その先にある、多モーダル活動、自己-外向きなどの研究の推進力となると研究者たちは信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more