「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

Rodin Innovative AI framework for generating 3D digital avatars from various input sources

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分析と合成のための最も有望な方法の一つを表しています。Stable Diffusionは、複雑な入力プロンプトから美しいリアルな画像を生成するための最もよく知られた生成モデルです。このアーキテクチャはDiffusion Models(DMs)に基づいており、画像と動画に対して驚異的な生成力を示しています。拡散と生成モデリングの急速な進歩が、2Dコンテンツの創造において革命を起こしています。その鍵となる言葉は非常にシンプルです。「それを説明できるなら、それを視覚化できる」ということです。または、さらに良いと言えば、「それを説明できるなら、モデルがそれを描くことができる」ということです。本当に信じられないほど、生成モデルが何ができるかです。

2DコンテンツはDMsにとってストレステストとなることが示されていますが、3Dコンテンツは追加の次元によると限定されないさまざまな課題をもたらします。アバターなどの3Dコンテンツを2Dコンテンツと同じ品質で生成することは、高品質のアバターに必要な豊富な詳細を生成するためのメモリと処理コストが制約となるため、困難な課題です。

技術が映画、ゲーム、メタバース、そして3D産業でデジタルアバターの使用を推進する中、誰でもデジタルアバターを作成できるようにすることは有益です。それがこの研究の進展を促している動機です。

著者たちは、デジタルアバターの作成の問題に対処するために、Roll-out diffusion network(Rodin)を提案しています。モデルの概要は、以下の図に示されています。

モデルへの入力は画像、ランダムノイズ、または望ましいアバターのテキストの説明であることができます。次に、与えられた入力から潜在ベクトルzが導かれ、拡散に使用されます。拡散プロセスは、いくつかのノイズ除去ステップから成り立っています。最初に、ランダムノイズが初期状態または画像に追加され、より鮮明な画像が得られるようにノイズが除去されます。

ここでの違いは、望ましいコンテンツの3D性質にあります。拡散プロセスは通常通り実行されますが、2D画像を対象とする代わりに、拡散モデルはアバターの粗いジオメトリを生成し、詳細合成のための拡散アップサンプラーを生成します。

計算およびメモリの効率性は、この研究の目標の一つです。このため、著者たちはニューラル輝度場の三軸(三軸)表現を利用しました。この表現は、ボクセルグリッドと比較して、記憶フットプリントをかなり小さくすることができるため、表現力を犠牲にすることなく効率性を高めることができます。

次に、別の拡散モデルが訓練され、生成された三面体プレーン表現を望ましい解像度にアップサンプリングします。最後に、4つの完全接続層から構成される軽量なMLPデコーダを利用して、RGBの体積画像を生成します。

以下にいくつかの結果を報告します。

先述の最先端の手法と比較して、Rodinは最も鮮明なデジタルアバターを提供します。モデルでは、他の手法とは異なり、共有されたサンプルにはアーティファクトが見られません。

これは、さまざまな入力ソースから簡単に3Dデジタルアバターを生成するための新しいフレームワークであるRodinの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

機械学習

量子AI:量子コンピューティングの潜在能力を機械学習で解き明かす

この記事では、量子機械学習について、現在の課題、機会、評価、成熟度、およびタイムリーさについて、読者がより詳しく学ぶ...

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

人工知能

ネットワークの強化:異常検知におけるML、AI、およびDLの力を解き放つ

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...