「Objaverse-XLと出会ってください:1000万以上の3Dオブジェクトのオープンデータセット」
Meet Objaverse-XL an open dataset of over 10 million 3D objects.
AIにおける最近のブレークスルーは、さまざまな領域の進歩においてスケールの重要性です。大規模なモデルは、言語理解、生成、表現学習、マルチモーダルタスク、画像生成などの領域で顕著な能力を示しています。学習可能なパラメータの数が増加するにつれ、現代のニューラルネットワークは膨大な量のデータを消費します。その結果、これらのモデルが示す能力は劇的に向上しました。
GPT-2はその一例であり、数年前に約300億の言語トークンを消費してデータの壁を打ち破りました。GPT-2はNLPのベンチマークで有望なゼロショットの結果を示しました。しかし、ChinchillaやLLaMAなどの新しいモデルは、ウェブクロールされた数兆のトークンを消費することでGPT-2を上回っています。これらのモデルは、ベンチマークや能力の面でGPT-2を簡単に凌駕しています。コンピュータビジョンでは、ImageNetはもともと100万枚の画像で構成され、表現学習のゴールドスタンダードでした。しかし、ウェブクロールによってデータセットが数十億の画像にスケーリングされるにつれて、LAION5BのようなデータセットはCLIPなどのモデルとともに強力な視覚表現を生み出しています。データセットを手動で組み立てるのではなく、ウェブを介してさまざまなソースから収集することにより、数百万から数十億のデータポイントにスケーリングすることができました。
言語と画像のデータが大幅にスケーリングされた一方で、3Dコンピュータビジョンなどの他の領域はまだ追いつく必要があります。3Dオブジェクトの生成や再構築などのタスクは、手作りの小規模なデータセットに依存しています。たとえばShapeNetは、高価なソフトウェアを使用してアセットを作成するために専門の3Dデザイナーに依存しており、クラウドソーシングやスケーリングが困難なプロセスです。データの希少性は、3Dコンピュータビジョンの学習駆動型手法のボトルネックとなっています。3Dオブジェクトの生成は、2D画像の生成に比べて大幅に遅れており、しばしば3Dデータ上でゼロからトレーニングされる代わりに、大規模な2Dデータセットでトレーニングされたモデルに依存しています。拡張現実(AR)や仮想現実(VR)技術への需要と関心の増加は、3Dデータのスケーリングの緊急性をさらに強調しています。
これらの制限に対処するために、Allen Institute for AI、ワシントン大学、シアトル、コロンビア大学、Stability AI、CALTECH、LAIONの研究者たちは、大規模なウェブクロールされた3DアセットのデータセットであるObjaverse-XLを紹介しています。3D制作ツールの急速な進歩と、Github、Sketchfab、Thingiverse、Polycamなどのプラットフォーム、およびスミソニアン協会などの専門サイトを通じてインターネット上での3Dデータの利用可能性の増加が、Objaverse-XLの作成に貢献しています。このデータセットは、Objaverse 1.0やShapeNetなどの従来の取り組みよりもはるかに多様で品質の高い3Dデータを提供します。Objaverse-XLには1000万以上の3Dオブジェクトが含まれており、前のデータセットよりも桁違いのスケールの増加を実現しています。
Objaverse-XLが提供するスケールと多様性は、最先端の3Dモデルの性能を大幅に向上させました。特に、Objaverse-XLで事前トレーニングされたZero123-XLモデルは、難解で複雑なモダリティにおいて優れたゼロショットの汎化能力を示しています。写実的なアセット、カートゥーン、ドローイング、スケッチなどの多様な入力に対しても、新しいビュー合成などのタスクで非常に優れたパフォーマンスを発揮します。同様に、少数の画像から新しいビューを合成するためにトレーニングされたPixelNeRFは、Objaverse-XLでトレーニングされると著しい改善が見られます。トレーニングデータを1000のアセットから1000万のアセットにスケーリングすることは、常に改善を示し、ウェブスケールのデータによって可能にされる約束と機会を強調しています。
Objaverse-XLの意義は、3Dモデルの領域を超えて広がっています。その潜在的な応用は、コンピュータビジョン、グラフィックス、拡張現実、生成AIに及びます。画像からの3Dオブジェクトの再構築は、コンピュータビジョンとグラフィックスの分野で長い間課題となってきました。既存の方法では、さまざまな表現、ネットワークアーキテクチャ、差分可能なレンダリング技術を探索して、画像から3Dの形状やテクスチャを予測してきました。しかし、これらの方法は主にShapeNetなどの小規模なデータセットに依存しています。Objaverse-XLのより大規模なデータセットを用いることで、ゼロショットの汎化において新たなパフォーマンスと汎用性のレベルが達成される可能性があります。
さらに、3Dにおける生成AIの出現は、非常に興味深い進展となっています。MCC、DreamFusion、Magic3Dなどのモデルは、テキストから画像への変換モデルの支援を受けて、テキストプロンプトから3Dシェイプを生成することができることを示しています。Objaverse-XLはまた、テキストから3D生成の機会を提供し、テキストから3Dモデリングの進歩を可能にします。広範で多様なデータセットを活用することで、研究者は新しい応用を探求し、3Dドメインにおける生成AIの限界を押し広げることができます。
Objaverse-XLのリリースは、3Dデータセットの分野における重要なマイルストーンです。そのサイズ、多様性、大規模なトレーニングの可能性は、3D理解の研究と応用の進歩を約束しています。Objaverse-XLは現在、10億スケールの画像テキストデータセットよりも小さいですが、その導入により、3Dデータセットのスケーリングと3Dコンテンツのキャプチャと作成の簡素化についてのさらなる探求の道が開かれます。将来の研究では、トレーニングのための最適なデータポイントの選択や、3Dセグメンテーションや検出などの識別的なタスクにObjaverse-XLを拡張することにも焦点を当てることができます。
まとめると、巨大な3DデータセットとしてのObjaverse-XLの導入は、コンピュータビジョン、グラフィックス、拡張現実、生成AIの新たな可能性を切り拓く土台を提供します。以前のデータセットの制約に取り組むことで、Objaverse-XLは大規模なトレーニングの基盤を提供し、3D領域での画期的な研究と応用の道を開きます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles