「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

Pretrained Transformer for easy adaptation to various downstream tasks 3D vision and text alignment with 3D-VisTA

人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理(NLP)の複雑さを融合させたものが、魅力的なフロンティアとして現れています。この進化により、現実世界で人間の指示を理解し実行することが可能になるかもしれません。3Dビジョン言語(3D-VL)の問題が注目を集め、物理環境と言語を組み合わせるという現代の推進力が明らかになりました。

中国の清華大学と国家一般人工知能研究所(BIGAI)の最新の研究では、研究チームが3D-VisTA(3D Vision and Text Alignment)を紹介しました。3D-VisTAは、3Dビジョンとテキスト理解をシームレスに組み合わせるために、事前にトレーニングされたトランスフォーマーアーキテクチャを使用して開発されています。セルフアテンション層を使用することで、3D-VisTAは現在のモデルとは対照的にシンプルさを取り入れており、さまざまな活動に対して複雑で専門化されたモジュールを組み合わせる必要がありません。これらのセルフアテンション層には、視覚的およびテキスト領域からの情報の多くの要素を組み合わせるためのマルチモーダルフュージョンと、個々のモダリティ内の情報をキャプチャするためのシングルモーダルモデリングという2つの機能があります。

これは、複雑なタスク固有の設計が必要なく実現されます。チームは、3D-VLジョブの困難さに対処するためにScanScribeという大規模なデータセットを作成しました。このデータセットは、3Dシーンデータとそれに付随する文章の説明を組み合わせたものであり、ScanNetや3R-Scanなどのよく知られたデータセットから取得された1,185の異なる屋内シーンから2,995のRGB-Dスキャンの多様なコレクションで構成されています。これらのスキャンには、278,000以上の関連するシーンの説明があり、テキストの説明は、洗練されたGPT-3言語モデル、テンプレート、および現在の3D-VLプロジェクトなど、さまざまなソースから派生しています。

この組み合わせにより、モデルをさまざまな言語と3Dシーンの状況に晒すことで、徹底的なトレーニングを受けることが容易になります。3D-VisTAのトレーニングプロセスでは、ScanScribeデータセット上で3つの重要なタスクが関与しています:マスクされた言語モデリング、マスクされたオブジェクトモデリング、およびシーンテキストのマッチング。これらのタスクを組み合わせることで、モデルのテキストと三次元シーンの整合性能力が強化されます。この事前トレーニング技術により、3D-VisTAは3D-VLの包括的な理解を持つため、次の微調整段階では追加の補助的な学習目標や困難な最適化手順が必要ありません。

3D-VisTAの優れたパフォーマンスは、その有効性の証拠としてさらに示されています。これらのタスクは、3D環境の空間コンテキスト内での推論である配置された推論、3Dシーンの明示的なテキストの説明である密なキャプション、オブジェクトをテキストの説明と結び付ける視覚的な接地、および3Dシーンに関する問い合わせに対する正確な回答を提供する質問応答など、さまざまな困難をカバーしています。3D-VisTAはこれらの課題において優れたパフォーマンスを発揮し、3Dビジョンと言語理解の領域を成功裏に融合させる能力を示しています。

また、3D-VisTAは優れたデータ効率性を持っており、ダウンストリームタスクの微調整ステップで少量の注釈付きデータに直面しても、大きなパフォーマンスを発揮します。この機能は、大量のラベル付きデータを取得することが困難な実世界の状況でのモデルの柔軟性と潜在能力を強調しています。プロジェクトの詳細は、https://3d-vista.github.io/でアクセスできます。

貢献は以下のようにまとめられます:

  1. 3D-VisTAは、特定のタスクに合わせた複雑な設計ではなく、テキストと三次元(3D)ビジョンの整合性のための結合トランスフォーマーモデルとして導入されました。
  1. ScanScribeは、2,995のRGB-Dスキャンと1,185の屋内シーンにわたる278,000のシーンテキストペアを持つ、大規模な3D-VL事前トレーニングデータセットです。
  1. 3D-VLのための自己教師ありの事前トレーニング方法が提供されました。この方法は、マスクされた言語モデリングとシーンテキストのマッチングを組み合わせることで、テキストと3Dポイントクラウドの整合性を効率的に学習し、後続のジョブの微調整を容易にします。
  1. この手法は、視覚的な基盤構築、密なキャプション生成、質問応答、文脈的な推論など、さまざまな3D-VLタスクで最先端のパフォーマンスを達成しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Distributed Tracing Best Practices'の日本語訳は以下の通りです: 分散トレーシングのベストプラクティス

分散トレーシングは現代の観測スタックでの定番となっていますマイクロサービスへの移行に伴い、私たちはサービス同士の相互...

AIニュース

「Nvidiaの画期的なAIイメージパーソナライゼーション:灌流法」

AIアート作成の絶えず進化する世界において、NvidiaはPerfusionと呼ばれる革命的なテキストから画像への個人化手法を発表しま...

データサイエンス

「ジェンAIの時代:新たな始まり」

イントロダクション 急速に進化するテクノロジーの世界で、我々は新たな時代の予感に包まれています。それは、かつて人間にし...

AI研究

「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」

ライス大学とAmazon Web Servicesの研究者チームが、GEMINIと呼ばれる分散トレーニングシステムを開発しました。このシステム...

機械学習

このAI論文は、イメージとテキストのアラインメントモデルにおける詳細なテキストとビジュアルの説明のための高度な技術を紹介しています

“`html 画像テキストの整列モデルは、視覚的コンテンツとテキスト情報の意味のある関連を確立し、イメージキャプショニ...

機械学習

Google DeepMindは、ChatGPTを超えるアルゴリズムの開発に取り組んでいます

画期的な発表により、GoogleのDeepMind AI研究所のCEOであるデミス・ハサビス氏は、革新的なAIシステムであるGeminiの開発を...