「3DモデリングはAIに基づいています」

3D modeling is based on AI.

クレジット:Andrij Borys Associates, Shutterstock.AI

グラフィックスレンダリングは常に基本的な前提に基づいています。つまり、より高速なパフォーマンスはより良い体験を意味します。もちろん、ビデオゲーム、拡張現実、仮想現実で使用される複雑な3次元(3D)画像をレンダリングするグラフィックス処理ユニット(GPU)は、ハードウェア上限に達する前に視覚パフォーマンスを限定します。さらに、モーアの法則が歴史に薄れていく中、さらなる改善を引き出す可能性は低下しています。

こうした状況から、人工知能(AI)の研究へと導かれました。具体的には、ニューラルネットを使用して、3Dグラフィックスの速度と品質を向上させるための取り組みが行われています。例えば、Nvidiaは2022年にDLSS 3(Deep Learning Super Sampling)を導入しました。これは、GPUを使用してフライで作成できるピクセルを予測するために機械学習を利用したニューラルグラフィックスエンジンで、レンダリング速度を最大530%まで向上させます。

これらの予測は、3Dレンダリングを根本的に変えます。「数十年にわたり、私たちはオブジェクトや光、およびそれらがリアルタイムでどのように相互作用するかをより正確にモデル化するアルゴリズムに投資してきました」と、Nvidiaの応用深層学習研究の副社長であるBryan Catanzaro氏は述べています。「AIは、グラフィックスレンダリングプロセスの信号から相関関係を特定する機会を創出し、計算集約型の作業を最小限に抑え、速度を向上させ、リソースを消費します。」

AIに頼ることで、ピクセルの作成を予測することが、コンピュータグラフィックスを根本的に再構築します。Nvidiaに加えて、IntelやAMDも類似のショートカットを使用してグラフィックスのレンダリングを高速化する3Dモデリングフレームワークを導入しています。通常、画像品質の明らかな低下なしで行われます。しかし、これらはすべて始まりに過ぎないかもしれません。今後、この新興分野は、Open AlのDall-E 2やGoogleのMiP-NeRFフレームワークなどの生成AIツールをDLSSなどと組み合わせて、新しい形のグラフィックスを生み出す可能性もあります。

「AIは、以前の手作りモデルよりも欠落したピクセルをより正確に推測することができます」と、Amazonの応用科学ディレクターで、オーストラリアのアデレード大学の拡張推論センターのディレクターでもあるAnton van den Hengel氏は述べています。「私たちはより先進的な3Dモデリングの時代に突入しています。」

トップへ戻る

全ての角度で楽しむ

フォトリアリズムは常に3Dモデリングの聖杯でした。1990年代に研究者たちは3Dグラフィックスの秘密を解き明かし、その後の数十年間、特にGPUの登場以降、ビデオゲームやその他のグラフィックス重視のアプリケーションは驚くほど進化しました。しかし、これらのシステムは基本的な物理問題に直面し続けています。リアルタイムグラフィックスの生成は、主に幾何学の問題であり、ブルートフォースで問題に取り組むことは、限定的な速度向上しかもたらしません。

モデルが複雑で、数十、数百のオブジェクトと角度が関与する場合や、計算がクラウド上で行われる場合、課題は指数関数的に増大します。例えば、群れをなす蝶や人の髪を表示するのは簡単なことではありません。背景が常に変化する中で合成オブジェクトが現れる場合は、さらに困難です。「リアルな画像を生成するには、光の伝達の物理学と画像作成の数学的な側面についての深い理解が必要です」と、GoogleのシニアスタッフリサーチャーであるJon Barron氏は述べています。「使用できるハードウェアベースのテクニックには限りがあります。」

拡張現実、仮想現実、新興のメタバースが登場すると、さらに複雑になります。「拡張現実や仮想現実について話が多いですが、私たちが実際に見せるものはほとんどありません」と、van den Hengel氏は述べています。「これらの技術は世界を変えると言われており、すぐそこにあると言われていますが、まだ実現していません。超リアルで有用な3Dモデリングに到達するためには、ハードウェアを超えてAIを取り入れる必要があります。」

GPUのハードウェアの進歩だけでは問題を解決することはできません。それは、エンジニアがチップ上により多くのトランジスタを配置する方法を見つけることができなくなっているためです。3Dグラフィックスが論理的な限界に達するのではなく、DLSSのようなソフトウェアベースのアプローチが、速度の向上と計算サイクルのエネルギー需要の削減の鍵となっています。「AIは情報のギャップを埋める固有の力を持っており」、コンピュータ生成画像の品質を向上させると、日本の豊橋技術科学大学のビジュアルAIラボの教授である栗山茂氏は述べています。

トップへ戻る

AIがモデルを変える

2010年頃、研究者たちはGPUを再利用してディープラーニングモデルのトレーニングを行うことができることを発見し、3Dモデリングとレンダリングのシーンは劇的に変化しました。 Nvidiaは2018年に最初のDLSSのバージョンを導入し、それは3回のイテレーションを経て3Dグラフィックスの主要な力となりました。DLSSなしでは、高速レンダリングと写実的な描写は単に不可能です。カタンザロ氏は「最も強力なGPUでもリアルタイムで高品質なレイトレース3Dモデルを生成することはできません。それら上で実行されるゲームやアプリケーションは楽しめません」と述べています。

DLSS 3は、AI生成ピクセルに対して動的に置き換え可能な実際のピクセルを予測することによって成功しています。オプティカルフローアクセラレータというハードウェア技術がフレームを比較し、変更の機会を特定します。DLSS 3は数十億のサンプルでトレーニングされ、その結果得られたトレーニングセットは約1,000倍に圧縮されました。ユーザーのデバイス上のGPUは、機械学習モデルを使用してどのピクセルを置き換えるかを決定し、正確に望ましいイメージをレンダリングします。これはまるでテレビのゲーム番組「ホイール・オブ・フォーチュン」や昔ながらのクロスワードパズルのようなものです。人はいくつかの文字を見て正しい言葉を見つけ出すことができます。3Dモデリングでは、AIモデルが実際のピクセルの潜在的な置き換えをできるだけ多く見つけ、ピクセルの交換を自動化することが目標です。

Catanzaro氏とNvidiaのチームがDLSS 3のパフォーマンスを詳細に調査したところ、ポータルのようなゲームでは8つのピクセルのうち最大7つを機械学習アルゴリズムが自動的にレンダリングしていることがわかりました。驚くべきことに、DLSS 3は3Dモデルを使用することでシステムのフレームレートを約20fpsから約100fpsに引き上げることが可能になります。このような速度とパフォーマンスの向上は非常に重要です。「この技術は従来のボトルネックを破る」とカタンザロ氏は述べています。

実際、DLSS 3やその他のAIモデルを取り巻く数学は、やや驚くべきものです。通常のグラフィックスビデオストリームのフレームには約400万のピクセルが含まれているとカタンザロ氏は指摘しています。ストリームが秒間100フレームで実行されている場合、GPUは約4億のサンプルを処理しています。成功の秘訣は、人間がシーンが実際に存在すると確信するためには、秒間100万個以下のサンプルしか必要としないという事実にあります。訓練されたニューラルネットワークは、どのピクセルが必要であり、それを適切にレンダリングする方法を見つけることができます。「これにより、モデルが維持できない無相関のランダムノイズを回避する範囲でモデルが機能することが可能になります」と彼は述べています。

DLSSのようなニューラルネットワークモデルの魅力は、ハードウェアとソフトウェアの間にスマートな統合をもたらすことです。栗山氏は、補間、外挿、超解像、スケーリングアップ、穴埋めなどに対して開発されたAIベースのデータ駆動型のソリューションを導入することで、この技術は業界をチップ製造技術からAI組み込みシステムにシフトさせていると述べています。「だから、NvidiaやIntel、AMDはこの問題を非常に重く受け止めているのです」と彼は言います。

トップに戻る

より良い未来のレンダリング

NvidiaはDLSS 3で最も大きな視覚的なインパクトを与えましたが、IntelとAMDも自身のニューラルモデリング技術によってパフォーマンスの限界を em> em>しようとしています。 IntelのXeSS(Xe Super Sampling)フレームワークは、近隣のピクセルからサブピクセルデータを再構築するAIパワードのアクセラレータとして機能します。これにより、約2倍のパフォーマンス向上が実現されます。AMDのRDNA 3グラフィックスアーキテクチャには、各コンピュートユニットに2つのAIアクセラレータが搭載されています。AMDは、このフレームワークがCUごとにRay Tracingの約50%増加とほぼ2.7倍の加速を提供すると主張しています。

ただし、ディープラーニングによる高速レンダリングはまだ初期の段階にあります。DLSS 3やその他のAIモデルは、特定のタイプの効果を表示する際に不十分であり、ジッターやゆらぎなどのアーティファクトが発生することがあります。また、複雑なアニメーションや頻繁なシーンの変化がある場合には歪みも生じる可能性があります。「これらのシステムは、学習が不十分な特定のシーンでこれらのイメージを高品質にレンダリングすることができません」と栗山氏は指摘しています。

拡張現実、メタバース、よりリアルな仮想現実の進化はさらなる要求を推し進めます。AIがより高度なオブジェクトの詳細レベルを生成する能力は、課題の一部に過ぎません。また、架空の世界を超えて、店舗、コーヒーショップ、歴史的な場所などの実際の物理的なランドマークとコンピュータ生成の3Dグラフィックスを一致させる必要があります。さらに、Barron氏は、ロボット工学や自律走行車の進歩にはより良い3Dモデリングが必要だと指摘しています。「これらのデバイスは3Dデータを送受信するため、計算に必要なデータを削減できるものは貴重です」と述べています。

3Dニューラルモデリングは、生成的AIを革命化する可能性があります。例えば、GoogleはMiP-NeRF 360というフレームワークを開発しており、AIを使用してオブジェクトの360度の写真のような表現を生成しています。また、Barron氏らはテキストと2D拡散技術を使用して3Dイメージを生成する拡散モデルの実験を行っています。DLSSのようなツールとOpen AIのDall-E 2やGoogleのDream Fusionのようなエンジンを組み合わせることで、3Dモデリングの能力を拡張することが可能になります、とCatanzaro氏は述べています。「それはおそらく3Dモデリングの次のフロンティアです」と彼は言います。

誰もがニューラル3Dレンダリング技術の価値を疑問視していません。さらに、追加のトレーニングデータはほぼ間違いなく、さまざまなツールやテクノロジーにおける将来の進歩を促進するでしょう。「モーアの法則が終了し、従来のグラフィックスが行き詰まったときに、AIが貴重なツールとして現れました」とCatanzaro氏は結論付けています。「レンダリングプロセスについてより賢くなることで、グラフィックスを前進させるための新しい強力な手法を提供してくれます。

「私たちは3Dレンダリングの領域で巨大なイノベーションの「剣先」にいます」と彼は言います。

さらに読む

Poole, B., Jain, A., Barron, J.T., and Mildenhall, B. DreamFusion: Text-to-3D using 2D Diffusion.

Sept. 29, 2022.

https://arxiv.org/abs/2209.14988

Mildenhall, B., Hedman, P., Martin-Brualla, R., Srinivasan, P., and Barron, J.T. NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images.

November 26, 2021.

https://arxiv.org/abs/2111.13679

Tewari, A., Thies, J. et al Advances in Neural Rendering, Computer Graphics Forum , May 2022, Pages 703–735.

https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.14507

Dundar, A., Gao, J., Tao, A., and Catanzaro, B. Fine Detailed Texture Learning for 3D Meshes with Generative Models. March 17, 2022. https://doi.org/10.48550/arXiv.2203.09362

トップに戻る

著者

Samuel Greengardは、米国オレゴン州ウェストリンに拠点を置く著者兼ジャーナリストです。

トップに戻る

脚注

a. https://www.nvidia.com/en-us/geforce/news/dlss3-ai-powered-neural-graphics-innovations/

b. https://developer.nvidia.com/docs/drive/drive-os/latest/linux/sdk/common/topics/nv-media_understand/OpticalFlowAccelerator.html

c. https://www.intel.com/content/www/us/en/support/articles/000090031/graphics/intel-arc-dedicated-graphics-family.html

d. https://www.amd.com/en/technologies/rdna

e. https://jonbarron.info/mipnerf360/

f. https://dreamfusion3d.github.io/

©2023 ACM  0001-0782/23/8

この作品の一部または全部を個人的または教室で利用するためにデジタルまたは印刷物の複製を作成することを許可しますが、そのコピーが営利または商業的な利益のために作成または配布されず、そのコピーにはこの通知と最初のページの完全な引用が含まれている必要があります。ACM以外の所有者によって所有されるこの作品の著作権は尊重されなければなりません。クレジットを付けて抄録を作成することは許可されています。それ以外の場合は、事前の特定の許可と/または料金が必要です。公開するための許可を申請するには、[email protected]までメールまたはfax(212)869-0481で要求してください。

デジタルライブラリは、Association for Computing Machineryによって出版されています。Copyright © 2023 ACM, Inc.

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...