AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです

アドビのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、5秒以内で単一の入力画像からオブジェクトの3Dモデルを予測する方法

多くの研究者たちは、任意の2D画像を瞬時に3Dモデルに変換できる世界を想像してきました。この分野の研究は、これらの長年の目標を達成するための一般的かつ効率的な方法を見つけるという願望に基づいており、産業デザイン、アニメーション、ゲーム、拡張現実/仮想現実などのさまざまな応用が考えられています。

初期の学習ベースの手法は、一目での3Dジオメトリの曖昧さにより、一部のカテゴリにおいてはうまく機能します。最近の研究は、DALL-EやStable Diffusionなどの画像生成の最新の進展に触発されて、2D拡散モデルの驚くべき一般化の可能性を活用するために、マルチビューの監督学習を実現することを目指しています。しかし、これらの手法の多くは慎重なパラメータ調整と正則化を必要とし、最初に使用された事前学習済みの2D生成モデルによって制約されます。

Adobe Researchとオーストラリア国立大学の研究者たちは、Large Reconstruction Model(LRM)を使用して単一の画像を3Dに変換することが可能となりました。提案されたモデルは、単一の画像からのデータ駆動型3Dオブジェクト表現学習のための大規模なトランスフォーマベースのエンコーダ・デコーダアーキテクチャを使用しています。画像がシステムに入力されると、NeRFの三面図の表現が出力されます。具体的には、LRMは、事前学習済みのビジュアルトランスフォーマDINOを画像エンコーダとして使用して画像特徴を生成し、その後、画像から三面図へのトランスフォーマデコーダを学習して、2D画像の特徴を3D三面図にattention的に投影し、空間構造化された三面図トークン間の関係を自己注意的にモデリングします。デコーダからの出力トークンは、最終的な三面図特徴マップにreshapeされてupsampledされます。その後、追加の共有マルチレイヤパーセプトロン(MLP)を使用して、各ポイントの三面図的特徴をデコードし、その色と密度を取得し、ボリュームレンダリングを実行することで、任意の視点から画像を生成することができます。

LRMは、設計がよく考えられているため高度にスケーラブルで効率的です。Triplane NeRFは、ボリュームやポイントクラウドのような他の表現に比べて計算的に効率的であり、シェイプEのトークン化したNeRFのモデルの重みと比較して、画像への近さが優れています。さらに、LRMは、新しいビューでのレンダリングされた画像とグラウンドトゥルー画像との差を最小化するだけで訓練されるため、過剰な3D感知的な正則化や繊細なハイパーパラメータ調整は必要ありません。そのため、モデルは訓練時に非常に効率的で、さまざまなマルチビュー画像データセットに適応可能です。

LRMは、500億個以上の学習可能なパラメータと、さまざまなカテゴリからの約100万個の3Dシェイプとビデオで構成されるトレーニングデータを持つ、最初の大規模な3D再構築モデルです。これは、より最近の手法が比較的浅いネットワークと小さなデータセットを使用しているのに対して、サイズが大幅に増加しています。実験結果は、LRMが実世界および生成モデルの写真から高品質な3D形状を再構築できることを示しています。また、LRMはダウンサイジングに非常に便利なツールです。

チームは、将来の研究において次の領域に焦点を当てる予定です:

  1. 最もシンプルなトランスフォーマベースの設計を使用して、モデルのサイズとトレーニングデータを増やす。
  2. 3Dのマルチモーダル生成モデルに拡張する。

3Dデザイナーが行っていた一部の作業は、LRMのような画像から3D再構成モデルの助けを借りることで自動化される可能性があります。また、これらの技術は創造的な分野における成長とアクセシビリティを高める可能性があることにも注意することが重要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能(AI)は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、...

機械学習

「機械学習をマスターするための10のGitHubリポジトリ」

ブログは機械学習コース、ブートキャンプ、書籍、ツール、インタビューの質問、チートシート、MLOpsプラットフォームなどをカ...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...

機械学習

『見て学ぶ小さなロボット:このAIアプローチは、人間のビデオデモンストレーションを使用して、ロボットに汎用的な操作方法を教える』

ロボットは常にテックの世界で注目の的となってきました。彼らは常にSF映画、子供向け番組、書籍、ディストピアの小説などで...

機械学習

仮想現実における人間の動作認識の進展:本AI論文では、LKA-GCNというスケルトン大カーネルアテンションを導入して、非の打ちどころのないパフォーマンスを実現します

スケルトンベースの人間のアクション認識は、ビデオデータからスケルトンの関節位置を分析して人間のアクションを識別するコ...

AIニュース

「人型ロボットは人間よりも飛行機を操縦できる」

エンジニアや研究者は、コックピットの改造を必要とせずに飛行機を操縦できるヒューマノイドロボットを開発しています