AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです

アドビのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、5秒以内で単一の入力画像からオブジェクトの3Dモデルを予測する方法

多くの研究者たちは、任意の2D画像を瞬時に3Dモデルに変換できる世界を想像してきました。この分野の研究は、これらの長年の目標を達成するための一般的かつ効率的な方法を見つけるという願望に基づいており、産業デザイン、アニメーション、ゲーム、拡張現実/仮想現実などのさまざまな応用が考えられています。

初期の学習ベースの手法は、一目での3Dジオメトリの曖昧さにより、一部のカテゴリにおいてはうまく機能します。最近の研究は、DALL-EやStable Diffusionなどの画像生成の最新の進展に触発されて、2D拡散モデルの驚くべき一般化の可能性を活用するために、マルチビューの監督学習を実現することを目指しています。しかし、これらの手法の多くは慎重なパラメータ調整と正則化を必要とし、最初に使用された事前学習済みの2D生成モデルによって制約されます。

Adobe Researchとオーストラリア国立大学の研究者たちは、Large Reconstruction Model(LRM)を使用して単一の画像を3Dに変換することが可能となりました。提案されたモデルは、単一の画像からのデータ駆動型3Dオブジェクト表現学習のための大規模なトランスフォーマベースのエンコーダ・デコーダアーキテクチャを使用しています。画像がシステムに入力されると、NeRFの三面図の表現が出力されます。具体的には、LRMは、事前学習済みのビジュアルトランスフォーマDINOを画像エンコーダとして使用して画像特徴を生成し、その後、画像から三面図へのトランスフォーマデコーダを学習して、2D画像の特徴を3D三面図にattention的に投影し、空間構造化された三面図トークン間の関係を自己注意的にモデリングします。デコーダからの出力トークンは、最終的な三面図特徴マップにreshapeされてupsampledされます。その後、追加の共有マルチレイヤパーセプトロン(MLP)を使用して、各ポイントの三面図的特徴をデコードし、その色と密度を取得し、ボリュームレンダリングを実行することで、任意の視点から画像を生成することができます。

LRMは、設計がよく考えられているため高度にスケーラブルで効率的です。Triplane NeRFは、ボリュームやポイントクラウドのような他の表現に比べて計算的に効率的であり、シェイプEのトークン化したNeRFのモデルの重みと比較して、画像への近さが優れています。さらに、LRMは、新しいビューでのレンダリングされた画像とグラウンドトゥルー画像との差を最小化するだけで訓練されるため、過剰な3D感知的な正則化や繊細なハイパーパラメータ調整は必要ありません。そのため、モデルは訓練時に非常に効率的で、さまざまなマルチビュー画像データセットに適応可能です。

LRMは、500億個以上の学習可能なパラメータと、さまざまなカテゴリからの約100万個の3Dシェイプとビデオで構成されるトレーニングデータを持つ、最初の大規模な3D再構築モデルです。これは、より最近の手法が比較的浅いネットワークと小さなデータセットを使用しているのに対して、サイズが大幅に増加しています。実験結果は、LRMが実世界および生成モデルの写真から高品質な3D形状を再構築できることを示しています。また、LRMはダウンサイジングに非常に便利なツールです。

チームは、将来の研究において次の領域に焦点を当てる予定です:

  1. 最もシンプルなトランスフォーマベースの設計を使用して、モデルのサイズとトレーニングデータを増やす。
  2. 3Dのマルチモーダル生成モデルに拡張する。

3Dデザイナーが行っていた一部の作業は、LRMのような画像から3D再構成モデルの助けを借りることで自動化される可能性があります。また、これらの技術は創造的な分野における成長とアクセシビリティを高める可能性があることにも注意することが重要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

顔認識によって食料品店から立ち入り禁止

英国における民間企業による顔認識技術の使用は増加しています

機械学習

「Amazon SageMaker Canvasで構築されたMLモデルをAmazon SageMakerリアルタイムエンドポイントに展開します」

『Amazon SageMaker Canvasは、機械学習(ML)モデルをリアルタイム推論エンドポイントにデプロイできるようになりましたこれ...

データサイエンス

制限から自由:MoMAでのマシン幻覚の検証

Refik Anadol Studioのリードデータサイエンティスト、クリスチャン・バークは、MoMAで展示された「Unsupervised」展での仕事...

AI研究

メタAIとケンブリッジ大学の研究者は、大規模言語モデル(LLM)が音声認識能力でプロンプトされる方法を調査しました

大規模言語モデル(Large Language Models)は、有名なChatGPTの導入により新しいトレンドとなっています。OpenAIによって開...

AI研究

「ジョンズ・ホプキンス大学の研究者たちは、がんに関連するタンパク質フラグメントを正確に予測することができる深層学習技術を開発しました」

ジョンズ・ホプキンス大学のエンジニアとがん研究者は、最先端の深層学習技術を駆使して、個別のがん治療における画期的な突...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...