AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです

アドビのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、5秒以内で単一の入力画像からオブジェクトの3Dモデルを予測する方法

多くの研究者たちは、任意の2D画像を瞬時に3Dモデルに変換できる世界を想像してきました。この分野の研究は、これらの長年の目標を達成するための一般的かつ効率的な方法を見つけるという願望に基づいており、産業デザイン、アニメーション、ゲーム、拡張現実/仮想現実などのさまざまな応用が考えられています。

初期の学習ベースの手法は、一目での3Dジオメトリの曖昧さにより、一部のカテゴリにおいてはうまく機能します。最近の研究は、DALL-EやStable Diffusionなどの画像生成の最新の進展に触発されて、2D拡散モデルの驚くべき一般化の可能性を活用するために、マルチビューの監督学習を実現することを目指しています。しかし、これらの手法の多くは慎重なパラメータ調整と正則化を必要とし、最初に使用された事前学習済みの2D生成モデルによって制約されます。

Adobe Researchとオーストラリア国立大学の研究者たちは、Large Reconstruction Model(LRM)を使用して単一の画像を3Dに変換することが可能となりました。提案されたモデルは、単一の画像からのデータ駆動型3Dオブジェクト表現学習のための大規模なトランスフォーマベースのエンコーダ・デコーダアーキテクチャを使用しています。画像がシステムに入力されると、NeRFの三面図の表現が出力されます。具体的には、LRMは、事前学習済みのビジュアルトランスフォーマDINOを画像エンコーダとして使用して画像特徴を生成し、その後、画像から三面図へのトランスフォーマデコーダを学習して、2D画像の特徴を3D三面図にattention的に投影し、空間構造化された三面図トークン間の関係を自己注意的にモデリングします。デコーダからの出力トークンは、最終的な三面図特徴マップにreshapeされてupsampledされます。その後、追加の共有マルチレイヤパーセプトロン(MLP)を使用して、各ポイントの三面図的特徴をデコードし、その色と密度を取得し、ボリュームレンダリングを実行することで、任意の視点から画像を生成することができます。

LRMは、設計がよく考えられているため高度にスケーラブルで効率的です。Triplane NeRFは、ボリュームやポイントクラウドのような他の表現に比べて計算的に効率的であり、シェイプEのトークン化したNeRFのモデルの重みと比較して、画像への近さが優れています。さらに、LRMは、新しいビューでのレンダリングされた画像とグラウンドトゥルー画像との差を最小化するだけで訓練されるため、過剰な3D感知的な正則化や繊細なハイパーパラメータ調整は必要ありません。そのため、モデルは訓練時に非常に効率的で、さまざまなマルチビュー画像データセットに適応可能です。

LRMは、500億個以上の学習可能なパラメータと、さまざまなカテゴリからの約100万個の3Dシェイプとビデオで構成されるトレーニングデータを持つ、最初の大規模な3D再構築モデルです。これは、より最近の手法が比較的浅いネットワークと小さなデータセットを使用しているのに対して、サイズが大幅に増加しています。実験結果は、LRMが実世界および生成モデルの写真から高品質な3D形状を再構築できることを示しています。また、LRMはダウンサイジングに非常に便利なツールです。

チームは、将来の研究において次の領域に焦点を当てる予定です:

  1. 最もシンプルなトランスフォーマベースの設計を使用して、モデルのサイズとトレーニングデータを増やす。
  2. 3Dのマルチモーダル生成モデルに拡張する。

3Dデザイナーが行っていた一部の作業は、LRMのような画像から3D再構成モデルの助けを借りることで自動化される可能性があります。また、これらの技術は創造的な分野における成長とアクセシビリティを高める可能性があることにも注意することが重要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

AIニュース

「3Dで身体のポーズを解釈するために、メガネがソナーとAIを使用します」

コーネル大学の研究者たちは、聞こえない音波と人工知能を使った着用型デバイスを開発しましたこのデバイスは、ユーザーの上...

AI研究

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保す...

AIニュース

BrainPadがAmazon Kendraを使用して内部の知識共有を促進する方法

この記事では、Amazon KendraとAWS Lambdaを使用した内部知識共有の構造化方法と、Amazon Kendraが多くの企業が直面する知識...

機械学習

Together AIがLlama-2-7B-32K-Instructを発表:拡張コンテキスト言語処理の大きな進歩

自然言語処理の広大な領域において、多面的な課題が生じています。それは、複雑で長大な指示を適切に理解し、応答する能力で...

AIニュース

「Amazon Translateは、翻訳の正確性と流暢さを向上させるためにカスタム用語集を強化しました」

「Amazon Translate」は、高速で高品質かつ手頃な価格でカスタマイズ可能な言語翻訳を提供するニューラル機械翻訳サービスで...