「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

Rodin Innovative AI framework for generating 3D digital avatars from various input sources

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分析と合成のための最も有望な方法の一つを表しています。Stable Diffusionは、複雑な入力プロンプトから美しいリアルな画像を生成するための最もよく知られた生成モデルです。このアーキテクチャはDiffusion Models(DMs)に基づいており、画像と動画に対して驚異的な生成力を示しています。拡散と生成モデリングの急速な進歩が、2Dコンテンツの創造において革命を起こしています。その鍵となる言葉は非常にシンプルです。「それを説明できるなら、それを視覚化できる」ということです。または、さらに良いと言えば、「それを説明できるなら、モデルがそれを描くことができる」ということです。本当に信じられないほど、生成モデルが何ができるかです。

2DコンテンツはDMsにとってストレステストとなることが示されていますが、3Dコンテンツは追加の次元によると限定されないさまざまな課題をもたらします。アバターなどの3Dコンテンツを2Dコンテンツと同じ品質で生成することは、高品質のアバターに必要な豊富な詳細を生成するためのメモリと処理コストが制約となるため、困難な課題です。

技術が映画、ゲーム、メタバース、そして3D産業でデジタルアバターの使用を推進する中、誰でもデジタルアバターを作成できるようにすることは有益です。それがこの研究の進展を促している動機です。

著者たちは、デジタルアバターの作成の問題に対処するために、Roll-out diffusion network(Rodin)を提案しています。モデルの概要は、以下の図に示されています。

モデルへの入力は画像、ランダムノイズ、または望ましいアバターのテキストの説明であることができます。次に、与えられた入力から潜在ベクトルzが導かれ、拡散に使用されます。拡散プロセスは、いくつかのノイズ除去ステップから成り立っています。最初に、ランダムノイズが初期状態または画像に追加され、より鮮明な画像が得られるようにノイズが除去されます。

ここでの違いは、望ましいコンテンツの3D性質にあります。拡散プロセスは通常通り実行されますが、2D画像を対象とする代わりに、拡散モデルはアバターの粗いジオメトリを生成し、詳細合成のための拡散アップサンプラーを生成します。

計算およびメモリの効率性は、この研究の目標の一つです。このため、著者たちはニューラル輝度場の三軸(三軸)表現を利用しました。この表現は、ボクセルグリッドと比較して、記憶フットプリントをかなり小さくすることができるため、表現力を犠牲にすることなく効率性を高めることができます。

次に、別の拡散モデルが訓練され、生成された三面体プレーン表現を望ましい解像度にアップサンプリングします。最後に、4つの完全接続層から構成される軽量なMLPデコーダを利用して、RGBの体積画像を生成します。

以下にいくつかの結果を報告します。

先述の最先端の手法と比較して、Rodinは最も鮮明なデジタルアバターを提供します。モデルでは、他の手法とは異なり、共有されたサンプルにはアーティファクトが見られません。

これは、さまざまな入力ソースから簡単に3Dデジタルアバターを生成するための新しいフレームワークであるRodinの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ディープラーニングのためのPythonとC++による自動微分

このストーリーでは、トレーニングループ中にパラメータの勾配を自動的に計算する現代のディープラーニングフレームワークの...

データサイエンス

「JAXにおけるディープ強化学習の優しい入門」

最近の強化学習(RL)の進歩、例えばWaymoの自律タクシーやDeepMindの人間を超えたチェスプレイヤーエージェントなどは、ニュ...

AIテクノロジー

「AIと芸術における可能性と破壊」

「人工知能は、非常にスムーズなトピックとなっています多くの人々は懐疑的でありながら楽観的でもあり、一部の人々はそれを...

機械学習

安定した拡散 コミュニティのAI

「ステーブルディフュージョンAIは、革新的な技術により芸術界を革命化し、創造性を高め、芸術の評価を変えています」

AI研究

東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました

物質における新しい結晶構造を発見する探求は、電子から製薬まで幅広い産業において重要な意味を持ち、科学的な探求の中核と...

データサイエンス

チャットGPTの潜在能力を引き出すためのプロンプトエンジニアリングのマスタリング

プロンプトエンジニアリングは、ChatGPTやその他の大規模言語モデルのおかげで、風のように私たちの生活の一部にすぐになりま...