「3D-VisTAに会いましょう：さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

Pretrained Transformer for easy adaptation to various downstream tasks 3D vision and text alignment with 3D-VisTA

人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理（NLP）の複雑さを融合させたものが、魅力的なフロンティアとして現れています。この進化により、現実世界で人間の指示を理解し実行することが可能になるかもしれません。3Dビジョン言語（3D-VL）の問題が注目を集め、物理環境と言語を組み合わせるという現代の推進力が明らかになりました。

中国の清華大学と国家一般人工知能研究所（BIGAI）の最新の研究では、研究チームが3D-VisTA（3D Vision and Text Alignment）を紹介しました。3D-VisTAは、3Dビジョンとテキスト理解をシームレスに組み合わせるために、事前にトレーニングされたトランスフォーマーアーキテクチャを使用して開発されています。セルフアテンション層を使用することで、3D-VisTAは現在のモデルとは対照的にシンプルさを取り入れており、さまざまな活動に対して複雑で専門化されたモジュールを組み合わせる必要がありません。これらのセルフアテンション層には、視覚的およびテキスト領域からの情報の多くの要素を組み合わせるためのマルチモーダルフュージョンと、個々のモダリティ内の情報をキャプチャするためのシングルモーダルモデリングという2つの機能があります。

これは、複雑なタスク固有の設計が必要なく実現されます。チームは、3D-VLジョブの困難さに対処するためにScanScribeという大規模なデータセットを作成しました。このデータセットは、3Dシーンデータとそれに付随する文章の説明を組み合わせたものであり、ScanNetや3R-Scanなどのよく知られたデータセットから取得された1,185の異なる屋内シーンから2,995のRGB-Dスキャンの多様なコレクションで構成されています。これらのスキャンには、278,000以上の関連するシーンの説明があり、テキストの説明は、洗練されたGPT-3言語モデル、テンプレート、および現在の3D-VLプロジェクトなど、さまざまなソースから派生しています。

この組み合わせにより、モデルをさまざまな言語と3Dシーンの状況に晒すことで、徹底的なトレーニングを受けることが容易になります。3D-VisTAのトレーニングプロセスでは、ScanScribeデータセット上で3つの重要なタスクが関与しています：マスクされた言語モデリング、マスクされたオブジェクトモデリング、およびシーンテキストのマッチング。これらのタスクを組み合わせることで、モデルのテキストと三次元シーンの整合性能力が強化されます。この事前トレーニング技術により、3D-VisTAは3D-VLの包括的な理解を持つため、次の微調整段階では追加の補助的な学習目標や困難な最適化手順が必要ありません。

3D-VisTAの優れたパフォーマンスは、その有効性の証拠としてさらに示されています。これらのタスクは、3D環境の空間コンテキスト内での推論である配置された推論、3Dシーンの明示的なテキストの説明である密なキャプション、オブジェクトをテキストの説明と結び付ける視覚的な接地、および3Dシーンに関する問い合わせに対する正確な回答を提供する質問応答など、さまざまな困難をカバーしています。3D-VisTAはこれらの課題において優れたパフォーマンスを発揮し、3Dビジョンと言語理解の領域を成功裏に融合させる能力を示しています。

また、3D-VisTAは優れたデータ効率性を持っており、ダウンストリームタスクの微調整ステップで少量の注釈付きデータに直面しても、大きなパフォーマンスを発揮します。この機能は、大量のラベル付きデータを取得することが困難な実世界の状況でのモデルの柔軟性と潜在能力を強調しています。プロジェクトの詳細は、https://3d-vista.github.io/でアクセスできます。

貢献は以下のようにまとめられます：

3D-VisTAは、特定のタスクに合わせた複雑な設計ではなく、テキストと三次元（3D）ビジョンの整合性のための結合トランスフォーマーモデルとして導入されました。

ScanScribeは、2,995のRGB-Dスキャンと1,185の屋内シーンにわたる278,000のシーンテキストペアを持つ、大規模な3D-VL事前トレーニングデータセットです。

3D-VLのための自己教師ありの事前トレーニング方法が提供されました。この方法は、マスクされた言語モデリングとシーンテキストのマッチングを組み合わせることで、テキストと3Dポイントクラウドの整合性を効率的に学習し、後続のジョブの微調整を容易にします。

この手法は、視覚的な基盤構築、密なキャプション生成、質問応答、文脈的な推論など、さまざまな3D-VLタスクで最先端のパフォーマンスを達成しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「3D-VisTAに会いましょう：さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

Was this article helpful?

Pythonで美しく（かつ有用な）スパゲッティプロットを作成する

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

機械学習

「LLMプロンプティングにおける思考の一端：構造化されたLLM推論の概要」

特定のドメインに特化した物体検出モデルの最適化方法

このAIニュースレターがあれば、あなたは全てが揃った！＃70

AIはETLの再発明に時間を浪費する必要はない

AIにおけるブロックチェーンの包括的なレビュー

AIの変革の道：OpenAIのGPT-4を通してのオデッセイ