「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

Pretrained Transformer for easy adaptation to various downstream tasks 3D vision and text alignment with 3D-VisTA

人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理(NLP)の複雑さを融合させたものが、魅力的なフロンティアとして現れています。この進化により、現実世界で人間の指示を理解し実行することが可能になるかもしれません。3Dビジョン言語(3D-VL)の問題が注目を集め、物理環境と言語を組み合わせるという現代の推進力が明らかになりました。

中国の清華大学と国家一般人工知能研究所(BIGAI)の最新の研究では、研究チームが3D-VisTA(3D Vision and Text Alignment)を紹介しました。3D-VisTAは、3Dビジョンとテキスト理解をシームレスに組み合わせるために、事前にトレーニングされたトランスフォーマーアーキテクチャを使用して開発されています。セルフアテンション層を使用することで、3D-VisTAは現在のモデルとは対照的にシンプルさを取り入れており、さまざまな活動に対して複雑で専門化されたモジュールを組み合わせる必要がありません。これらのセルフアテンション層には、視覚的およびテキスト領域からの情報の多くの要素を組み合わせるためのマルチモーダルフュージョンと、個々のモダリティ内の情報をキャプチャするためのシングルモーダルモデリングという2つの機能があります。

これは、複雑なタスク固有の設計が必要なく実現されます。チームは、3D-VLジョブの困難さに対処するためにScanScribeという大規模なデータセットを作成しました。このデータセットは、3Dシーンデータとそれに付随する文章の説明を組み合わせたものであり、ScanNetや3R-Scanなどのよく知られたデータセットから取得された1,185の異なる屋内シーンから2,995のRGB-Dスキャンの多様なコレクションで構成されています。これらのスキャンには、278,000以上の関連するシーンの説明があり、テキストの説明は、洗練されたGPT-3言語モデル、テンプレート、および現在の3D-VLプロジェクトなど、さまざまなソースから派生しています。

この組み合わせにより、モデルをさまざまな言語と3Dシーンの状況に晒すことで、徹底的なトレーニングを受けることが容易になります。3D-VisTAのトレーニングプロセスでは、ScanScribeデータセット上で3つの重要なタスクが関与しています:マスクされた言語モデリング、マスクされたオブジェクトモデリング、およびシーンテキストのマッチング。これらのタスクを組み合わせることで、モデルのテキストと三次元シーンの整合性能力が強化されます。この事前トレーニング技術により、3D-VisTAは3D-VLの包括的な理解を持つため、次の微調整段階では追加の補助的な学習目標や困難な最適化手順が必要ありません。

3D-VisTAの優れたパフォーマンスは、その有効性の証拠としてさらに示されています。これらのタスクは、3D環境の空間コンテキスト内での推論である配置された推論、3Dシーンの明示的なテキストの説明である密なキャプション、オブジェクトをテキストの説明と結び付ける視覚的な接地、および3Dシーンに関する問い合わせに対する正確な回答を提供する質問応答など、さまざまな困難をカバーしています。3D-VisTAはこれらの課題において優れたパフォーマンスを発揮し、3Dビジョンと言語理解の領域を成功裏に融合させる能力を示しています。

また、3D-VisTAは優れたデータ効率性を持っており、ダウンストリームタスクの微調整ステップで少量の注釈付きデータに直面しても、大きなパフォーマンスを発揮します。この機能は、大量のラベル付きデータを取得することが困難な実世界の状況でのモデルの柔軟性と潜在能力を強調しています。プロジェクトの詳細は、https://3d-vista.github.io/でアクセスできます。

貢献は以下のようにまとめられます:

  1. 3D-VisTAは、特定のタスクに合わせた複雑な設計ではなく、テキストと三次元(3D)ビジョンの整合性のための結合トランスフォーマーモデルとして導入されました。
  1. ScanScribeは、2,995のRGB-Dスキャンと1,185の屋内シーンにわたる278,000のシーンテキストペアを持つ、大規模な3D-VL事前トレーニングデータセットです。
  1. 3D-VLのための自己教師ありの事前トレーニング方法が提供されました。この方法は、マスクされた言語モデリングとシーンテキストのマッチングを組み合わせることで、テキストと3Dポイントクラウドの整合性を効率的に学習し、後続のジョブの微調整を容易にします。
  1. この手法は、視覚的な基盤構築、密なキャプション生成、質問応答、文脈的な推論など、さまざまな3D-VLタスクで最先端のパフォーマンスを達成しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以...

人工知能

「予算の制約を持つ学生や起業家のための7つの最高の無料AIツール」

「無料で利用できる最高の7つのAIツールを一つ一つ選びました何もありません何もない」

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

データサイエンス

PandasAIの紹介:GenAIを搭載したデータ分析ライブラリ

イントロダクション 最近、ジェネレーティブ人工知能の分野で急速な発展とブレークスルーがあり、データ分野においても大きな...

AI研究

デジタルルネッサンス:NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップ...

AI研究

「ジョンズ・ホプキンス大学の研究者たちは、がんに関連するタンパク質フラグメントを正確に予測することができる深層学習技術を開発しました」

ジョンズ・ホプキンス大学のエンジニアとがん研究者は、最先端の深層学習技術を駆使して、個別のがん治療における画期的な突...