「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」
Pretrained Transformer for easy adaptation to various downstream tasks 3D vision and text alignment with 3D-VisTA
人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理(NLP)の複雑さを融合させたものが、魅力的なフロンティアとして現れています。この進化により、現実世界で人間の指示を理解し実行することが可能になるかもしれません。3Dビジョン言語(3D-VL)の問題が注目を集め、物理環境と言語を組み合わせるという現代の推進力が明らかになりました。
中国の清華大学と国家一般人工知能研究所(BIGAI)の最新の研究では、研究チームが3D-VisTA(3D Vision and Text Alignment)を紹介しました。3D-VisTAは、3Dビジョンとテキスト理解をシームレスに組み合わせるために、事前にトレーニングされたトランスフォーマーアーキテクチャを使用して開発されています。セルフアテンション層を使用することで、3D-VisTAは現在のモデルとは対照的にシンプルさを取り入れており、さまざまな活動に対して複雑で専門化されたモジュールを組み合わせる必要がありません。これらのセルフアテンション層には、視覚的およびテキスト領域からの情報の多くの要素を組み合わせるためのマルチモーダルフュージョンと、個々のモダリティ内の情報をキャプチャするためのシングルモーダルモデリングという2つの機能があります。
これは、複雑なタスク固有の設計が必要なく実現されます。チームは、3D-VLジョブの困難さに対処するためにScanScribeという大規模なデータセットを作成しました。このデータセットは、3Dシーンデータとそれに付随する文章の説明を組み合わせたものであり、ScanNetや3R-Scanなどのよく知られたデータセットから取得された1,185の異なる屋内シーンから2,995のRGB-Dスキャンの多様なコレクションで構成されています。これらのスキャンには、278,000以上の関連するシーンの説明があり、テキストの説明は、洗練されたGPT-3言語モデル、テンプレート、および現在の3D-VLプロジェクトなど、さまざまなソースから派生しています。
この組み合わせにより、モデルをさまざまな言語と3Dシーンの状況に晒すことで、徹底的なトレーニングを受けることが容易になります。3D-VisTAのトレーニングプロセスでは、ScanScribeデータセット上で3つの重要なタスクが関与しています:マスクされた言語モデリング、マスクされたオブジェクトモデリング、およびシーンテキストのマッチング。これらのタスクを組み合わせることで、モデルのテキストと三次元シーンの整合性能力が強化されます。この事前トレーニング技術により、3D-VisTAは3D-VLの包括的な理解を持つため、次の微調整段階では追加の補助的な学習目標や困難な最適化手順が必要ありません。
3D-VisTAの優れたパフォーマンスは、その有効性の証拠としてさらに示されています。これらのタスクは、3D環境の空間コンテキスト内での推論である配置された推論、3Dシーンの明示的なテキストの説明である密なキャプション、オブジェクトをテキストの説明と結び付ける視覚的な接地、および3Dシーンに関する問い合わせに対する正確な回答を提供する質問応答など、さまざまな困難をカバーしています。3D-VisTAはこれらの課題において優れたパフォーマンスを発揮し、3Dビジョンと言語理解の領域を成功裏に融合させる能力を示しています。
また、3D-VisTAは優れたデータ効率性を持っており、ダウンストリームタスクの微調整ステップで少量の注釈付きデータに直面しても、大きなパフォーマンスを発揮します。この機能は、大量のラベル付きデータを取得することが困難な実世界の状況でのモデルの柔軟性と潜在能力を強調しています。プロジェクトの詳細は、https://3d-vista.github.io/でアクセスできます。
貢献は以下のようにまとめられます:
- 3D-VisTAは、特定のタスクに合わせた複雑な設計ではなく、テキストと三次元(3D)ビジョンの整合性のための結合トランスフォーマーモデルとして導入されました。
- ScanScribeは、2,995のRGB-Dスキャンと1,185の屋内シーンにわたる278,000のシーンテキストペアを持つ、大規模な3D-VL事前トレーニングデータセットです。
- 3D-VLのための自己教師ありの事前トレーニング方法が提供されました。この方法は、マスクされた言語モデリングとシーンテキストのマッチングを組み合わせることで、テキストと3Dポイントクラウドの整合性を効率的に学習し、後続のジョブの微調整を容易にします。
- この手法は、視覚的な基盤構築、密なキャプション生成、質問応答、文脈的な推論など、さまざまな3D-VLタスクで最先端のパフォーマンスを達成しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ディープフェイクの解明:ヘッドポーズ推定パターンを活用した検出精度の向上」
- 「文書理解の進展」
- ビッグテックと生成AI:ビッグテックが生成AIを制御するのか?
- なぜ特徴スケーリングは機械学習において重要なのか?6つの特徴スケーリング技術についての議論
- 「ミケランジェロのAIいとこ:ニューランジェロは高精度な3D表面再構築が可能なAIモデルです[コードも含まれています]」
- 「ゴリラ – API呼び出しの使用能力を向上させる大規模言語モデルの強化」 翻訳結果はこちらです
- このAI論文は、古典的なコンピュータによって生成される敵対的攻撃に対して、量子マシンラーニングモデルがより良く防御される可能性があることを示唆しています