AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです
アドビのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、5秒以内で単一の入力画像からオブジェクトの3Dモデルを予測する方法
多くの研究者たちは、任意の2D画像を瞬時に3Dモデルに変換できる世界を想像してきました。この分野の研究は、これらの長年の目標を達成するための一般的かつ効率的な方法を見つけるという願望に基づいており、産業デザイン、アニメーション、ゲーム、拡張現実/仮想現実などのさまざまな応用が考えられています。
初期の学習ベースの手法は、一目での3Dジオメトリの曖昧さにより、一部のカテゴリにおいてはうまく機能します。最近の研究は、DALL-EやStable Diffusionなどの画像生成の最新の進展に触発されて、2D拡散モデルの驚くべき一般化の可能性を活用するために、マルチビューの監督学習を実現することを目指しています。しかし、これらの手法の多くは慎重なパラメータ調整と正則化を必要とし、最初に使用された事前学習済みの2D生成モデルによって制約されます。
Adobe Researchとオーストラリア国立大学の研究者たちは、Large Reconstruction Model(LRM)を使用して単一の画像を3Dに変換することが可能となりました。提案されたモデルは、単一の画像からのデータ駆動型3Dオブジェクト表現学習のための大規模なトランスフォーマベースのエンコーダ・デコーダアーキテクチャを使用しています。画像がシステムに入力されると、NeRFの三面図の表現が出力されます。具体的には、LRMは、事前学習済みのビジュアルトランスフォーマDINOを画像エンコーダとして使用して画像特徴を生成し、その後、画像から三面図へのトランスフォーマデコーダを学習して、2D画像の特徴を3D三面図にattention的に投影し、空間構造化された三面図トークン間の関係を自己注意的にモデリングします。デコーダからの出力トークンは、最終的な三面図特徴マップにreshapeされてupsampledされます。その後、追加の共有マルチレイヤパーセプトロン(MLP)を使用して、各ポイントの三面図的特徴をデコードし、その色と密度を取得し、ボリュームレンダリングを実行することで、任意の視点から画像を生成することができます。
- 研究者たちは、より優れた熱管理のために固体熱トランジスタを開発しました
- 「オックスフォード大学と西安交通大学の研究者たちが、先端メモリ技術での相変化材料のシミュレーションに向けた革新的な機械学習モデルを発表」
- Google Quantum AIの研究者が、拡張性のある量子エラー訂正のための漏洩管理において大きな進展を達成
LRMは、設計がよく考えられているため高度にスケーラブルで効率的です。Triplane NeRFは、ボリュームやポイントクラウドのような他の表現に比べて計算的に効率的であり、シェイプEのトークン化したNeRFのモデルの重みと比較して、画像への近さが優れています。さらに、LRMは、新しいビューでのレンダリングされた画像とグラウンドトゥルー画像との差を最小化するだけで訓練されるため、過剰な3D感知的な正則化や繊細なハイパーパラメータ調整は必要ありません。そのため、モデルは訓練時に非常に効率的で、さまざまなマルチビュー画像データセットに適応可能です。
LRMは、500億個以上の学習可能なパラメータと、さまざまなカテゴリからの約100万個の3Dシェイプとビデオで構成されるトレーニングデータを持つ、最初の大規模な3D再構築モデルです。これは、より最近の手法が比較的浅いネットワークと小さなデータセットを使用しているのに対して、サイズが大幅に増加しています。実験結果は、LRMが実世界および生成モデルの写真から高品質な3D形状を再構築できることを示しています。また、LRMはダウンサイジングに非常に便利なツールです。
チームは、将来の研究において次の領域に焦点を当てる予定です:
- 最もシンプルなトランスフォーマベースの設計を使用して、モデルのサイズとトレーニングデータを増やす。
- 3Dのマルチモーダル生成モデルに拡張する。
3Dデザイナーが行っていた一部の作業は、LRMのような画像から3D再構成モデルの助けを借りることで自動化される可能性があります。また、これらの技術は創造的な分野における成長とアクセシビリティを高める可能性があることにも注意することが重要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「$1でジェネラティブAIを使ってより優れたランニングシューズ(または他の製品)を作る」
- シンガポール国立大学(NTU)の研究者が提案する「OtterHD-8B」という革新的なマルチモーダルAIモデルは、「Fuyu-8B」から進化したものである
- 新しい研究論文が、化学の論文がChatbot ChatGPTを使用して書かれた時に簡単に見分けることができる機械学習ツールを紹介しています
- 新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます
- ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました
- 「NVIDIA CUDA Quantumによる研究者の進歩が期待される」
- ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します