「PhysObjectsに会いましょう:一般的な家庭用品の36.9K個のクラウドソーシングと417K個の自動物理的概念アノテーションを含むオブジェクト中心のデータセット」

Meet PhysObjects an object-centric dataset with 36.9K crowd-sourced and 417K automated physical concept annotations of common household items.

現実世界では、情報はしばしばテキスト、画像、または動画の組み合わせによって伝えられます。この情報を効果的に理解し、対話するためには、AIシステムは両方のモダリティを処理できる必要があります。ビジュアル言語モデルは、自然言語理解とコンピュータビジョンの間のギャップを埋め、より包括的な世界の理解を可能にします。

これらのモデルは、テキストとビジュアル要素を組み込んだ豊かで文脈に即した説明、ストーリー、または説明を生成することができます。これは、マーケティング、エンターテイメント、教育など、さまざまな目的のコンテンツを作成するために役立ちます。

ビジュアル言語モデルの主なタスクには、ビジュアルクエスチョンアンサリングと画像キャプションがあります。ビジュアルクエスチョンアンサリングでは、AIモデルに画像とその画像に関するテキストベースの質問が提示されます。モデルはまずコンピュータビジョンの技術を使用して画像の内容を理解し、NLPを使用してテキストの質問を処理します。回答は理想的には画像の内容を反映し、質問に含まれる特定のクエリに対応する必要があります。一方、画像キャプションでは、画像の内容を説明する記述的なテキストキャプションや文を自動生成することが含まれます。

現在のビジュアル言語モデルは、一般的なオブジェクトの物質の種類や壊れやすさなどの物理的な概念を捉えることを改善する必要があります。これにより、物体の物理的な推論を必要とするロボットの識別タスクが非常に困難になります。この問題を解決するために、スタンフォード大学、プリンストン大学、Google DeepMindの研究者らはPhysObjectsを提案しています。これは、一般的な家庭用品の36.9Kのクラウドソースおよび417Kの自動物理的概念アノテーションのオブジェクト中心のデータセットです。クラウドソースのアノテーションは、分散グループの個人を使用して大量のデータを収集し、ラベル付けする方法です。

彼らは、PhysObjectsでファインチューンされたVLMが物理的な推論能力を大幅に向上させることを示しました。物理的に基礎づけられたVLMは、保持データセットの例において予測精度が向上しています。彼らはこの物理的に基礎づけられたVLMをLLMベースのロボットプランナーと組み合わせてその利点をテストしました。LLMはシーン内のオブジェクトの物理的な概念についてVLMにクエリを行います。

研究者は、EgoObjectsデータセットを画像ソースとして使用しました。これは、PhysObjectsを構築する際に公開された最大の実オブジェクト中心のデータセットでした。リアルな家庭の配置のビデオで構成されているため、家庭用ロボティクスのトレーニングに関連しています。平均して、117,424枚の画像、225,466個のオブジェクト、4,203個のオブジェクトインスタンスIDが含まれています。

彼らの結果は、物理的に基礎づけられたVLMを使用しないベースラインと比較して、物理的な推論を必要とするタスクの計画パフォーマンスが向上したことを示しています。彼らの今後の研究では、幾何学的な推論や社会的な推論など、物理的な推論を超えて拡大する予定です。彼らの手法とデータセットは、VLMを用いたより洗練された推論のための第一歩です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more