ユニ3D:スケールで統一された3D表現を探求する

ユニ3D:スケールで統一された3D表現を探求する 美容とファッションの専門家

テキストと視覚の拡大表現は、近年の研究の主要な焦点となっています。過去の発展と研究により、言語学習やビジョンにおいて多くの革命が起こってきました。しかし、テキストと視覚表現の拡大に人気がある一方で、3Dシーンやオブジェクトの表現の拡大は十分に議論されてきませんでした。

今日は、統一的な3D表現を探索する3D基盤モデルであるUni3Dについて述べます。Uni3Dフレームワークは、2D初期化されたViTフレームワークを用い、画像テキストの特徴と対応する3Dポイントクラウドの特徴を整合させるために、エンドツーエンドで事前に学習されます。

Uni3Dフレームワークは、プリテキストタスクとシンプルなアーキテクチャを使用し、プリトレーニング済みの2Dモデルと画像テキストアライメントモデルをそれぞれ初期化とターゲットとして活用します。このアプローチにより、2Dモデルのフルポテンシャルとそれを3D世界にスケーリングするための戦略を引き出すことができます。

この記事では、3DコンピュータビジョンとUni3Dフレームワークについて、その重要なコンセプトとモデルのアーキテクチャについてより詳しく掘り下げます。それでは始めましょう。

Uni3Dと3D表現学習:イントロダクション

過去数年間で、コンピュータビジョンはAI産業で最も大きな投資が行われている分野の一つとなりました。2Dコンピュータビジョンフレームワークの重要な進展に続いて、開発者たちは3Dコンピュータビジョンに焦点を移しています。特に3D表現学習と呼ばれるこの領域は、コンピュータグラフィックス、機械学習、コンピュータビジョン、数学の側面を統合して、3Dジオメトリの処理と理解を自動化するために使用されます。LiDARなどの3Dセンサーの急速な発展と、AR/VR産業での広範な応用により、3D表現学習はますます注目されています。その潜在的な応用は日々拡大しています。

存在するフレームワークは3Dモデルアーキテクチャ、タスク指向のモデリング、学習目標において顕著な進展を示していますが、ほとんどは限られたデータ、パラメータ、タスクシナリオで3Dアーキテクチャを比較的小規模に探求しています。実際の環境でリアルタイムのアプリケーションに適用できるスケーラブルな3D表現の学習の難問はほとんど解明されていません。

続いて、数年前から、事前学習済みの大規模言語モデルの拡大は、自然言語処理の領域を革新するのに役立ちました。最近の研究では、データとモデルの拡大を通じて、言語から2Dへの進展が示されており、開発者が3D表現を学習し、リアルワールドのアプリケーションにスケーリング・転送するためにこの成功を試みる道を開いています。

Uni3Dは、10億を超えるパラメータ、1000万以上の画像と7000万以上のテキスト、100万を超える3Dシェイプの規模でその限界に挑戦する大規模な3D表現を学習することを目指したスケーラブルで統一的な事前学習済み3Dフレームワークです。下の図はUni3Dフレームワークのパラメータに対するゼロショットの精度を比較しています。Uni3Dフレームワークは6百万から10億を超える3D表現をスケーリングしています。

Uni3Dフレームワークは、2D ViTまたはビジョンTransformerを3Dエンコーダとして使用し、画像テキストアライメントされた特徴を3Dポイントクラウド特徴と整合させるためにエンドツーエンドで事前学習されます。Uni3Dフレームワークは、プリテキストタスクとシンプルなアーキテクチャを活用し、プリトレーニング済みの2Dモデルと画像テキストアライメントモデルを初期化とターゲットとして使用し、2Dモデルの完全なポテンシャルと3D世界へのスケーリング戦略を引き出します。Uni3Dフレームワークの柔軟性とスケーラビリティは以下の観点で測定されます。

  1. モデルのスケーリング:6百万から10億を超えるパラメータ。
  2. 2D初期化:視覚の自己教師あり学習からテキスト指導。
  3. テキスト-画像ターゲットモデルのスケーリング:1億5000万から10億を超えるパラメータ。

Uni3Dによって提供される柔軟で統一されたフレームワークの下で、開発者は各コンポーネントのスケーリングにおいてパフォーマンスの一貫した向上を観測することができます。また、大規模な3D表現学習も、共有可能な2Dやスケールアップ戦略から大いに恩恵を受けています。

下の図でもわかるように、Uni3Dフレームワークはfew-shotやzero-shotの設定において、従来の技術と比較してパフォーマンスが向上しています。また、Uni3DフレームワークはModelNetにおいて88%以上のゼロショット分類精度を達成しており、いくつかの最先端の教師あり方法と比較しても遜色のないパフォーマンスを発揮していることがわかります。

さらに、Uni3Dフレームワークは、部位セグメンテーションやオープンワールド理解などの他の代表的な3Dタスクを実行する際にも、優れた精度とパフォーマンスを提供します。Uni3Dフレームワークは、統一されたかつシンプルな事前トレーニングアプローチを用いて、幅広いタスクにおいてより堅牢な3D表現を学習することにより、2Dビジョンと3Dビジョンのギャップを埋めることを目指しています。

Uni3Dフレームワークは、以前の3D表現学習や基礎モデルの開発からインスピレーションを受け、学んでいます。

3D表現学習

3D表現学習の方法は、オブジェクトの3D理解のためにポイントクラウドを使用し、最近では開発者によって広く探索されてきました。これらのポイントクラウドは、マスク点モデリング、自己再構築、コントラスト学習などの特定の3D先行タスクを用いた自己教師あり事前トレーニングによって事前学習できることが確認されています。

これらの手法はデータに制約があるため、2Dから3DまたはNLPへの多様な表現を調査することはほとんどありません。ただし、コントラスト学習の手法を用いて生のテキストからビジュアルコンセプトを学習し、同じコントラスト学習の手法を用いてイメージ、テキスト、ポイントクラウドの特徴を整列させることで3D表現を学習しようとするCLIPフレームワークの最近の成功があります。

基礎モデル

開発者は、多様なモダリティにわたるマルチモーダル表現のスケーリングと統一を実現するために、基礎となるモデルの設計に徹底的に取り組んでいます。たとえば、NLPの領域では、事前学習された言語モデルをスケーリングすることができるフレームワークに取り組んでおり、これはNLP産業を革新しています。また、2Dビジョンの領域でも、データとモデルのスケーリング技術を使用して言語から2Dモデルへの進展を支援するためのフレームワークが開発されています。しかし、3Dモデルは3Dデータの利用可能性の制約や3Dフレームワークの統合とスケーリングの困難さから、このようなフレームワークを再現することが困難です。

上記の2つの作業領域から学びを得て、開発者はUni3Dフレームワークを作成しました。このUni3Dフレームワークは、10億パラメータを超える初の3D基礎モデルで、統一されたViTまたはVision Transformerアーキテクチャを使ってUni3Dモデルをスケールアップすることができるようになりました。開発者は、この方法がUni3Dフレームワークが現在の2Dと3Dビジョンのギャップを埋め、マルチモーダルの収束を促進することを望んでいます

Uni3D:方法とアーキテクチャ

上の画像は、大規模な3D表現学習のためのスケーラブルで統一された事前トレーニング3DフレームワークであるUni3Dフレームワークの一般的な概要を示しています。開発者は、7000万以上のテキストと1000万以上の画像を100万以上の3Dシェイプと組み合わせてUni3Dフレームワークを10億以上のパラメータにスケールさせています。Uni3Dフレームワークは、2D ViTまたはVision Transformerを3Dエンコーダとして使用し、テキスト-イメージデータを3Dクラウドポイント特徴と整列させるためにエンドツーエンドでトレーニングされることで、幅広いベンチマークにおいて望ましい効率と精度を提供することができます。では、Uni3Dフレームワークの動作を詳しく見てみましょう。

Uni3Dフレームワークのスケーリング

従来のクラウドポイント表現学習に関する研究は、幅広いアプリケーションでより優れたパフォーマンスを提供する特定のモデルアーキテクチャの設計に重点を置いてきました。また、小規模なデータセットによる作業のため、限られた3Dデータの利用可能性により、3Dのスケーラブルな事前学習の可能性を試した最近の研究もありましたが、主要な成果はありませんでした。3Dフレームワークのスケーラビリティの問題を解決するために、Uni3Dフレームワークは、バニラトランスフォーマー構造の力を活用しています。これはほぼVision Transformerを反映していて、モデルのサイズをスケーリングするために統一された2DまたはNLPのスケーリングアップ戦略を使用することで、スケーリングの問題を解決することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

トップ10のコードなしAIアプリビルダー

あなたは、「コーディングを知っていたら、夢のソフトウェアを作れるのになあ」と思ったことはありませんか?それが現実にな...

AI研究

スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました

3Dシーンモデリングは従来、特定の知識を持つ人々に限られた時間のかかる手続きでした。パブリックドメインには多くの3D素材...

機械学習

AIのダークサイドを明らかにする:プロンプトハッキングがあなたのAIシステムを妨害する方法

LLMsによるハッキングを防止し、データを保護するために、AIシステムを保護してくださいこの新興脅威に対するリスク、影響、...

機械学習

「Underrepresented Groupsの存在下での学習について」

「ICML 2023で受け入れられた最新の成果をご紹介いたします『Change is Hard A Closer Look at Subpopulation Shift』という...

機械学習

「Javaを使用した脳コンピュータインターフェース(BCI)アプリケーションの開発:開発者のためのガイド」

BCIsは脳デバイスの通信を可能にし、Javaはライブラリを使用して開発を支援しています課題には信号の品質と倫理が含まれます

AIテクノロジー

2023年に使用するための11つのAIビデオジェネレータ:テキストからビデオへの変換

AIの最も注目すべき表現の一つは、AIビデオジェネレーターの登場です。これにより、テキストとビジュアルの間の隔たりをなく...