このAIペーパーは、写真リアルな人物モデリングと効率的なレンダリングのブレイクスルーであるHiFi4Gを明らかにします
「ハイエンド4G(HiFi4G):写真リアルな人物モデリングと効率的なレンダリングの最新技術を解説するAIペーパー」
4D(時空)人間パフォーマンスのボリューメトリックな記録とリアルな表現は、観客とパフォーマーの間の障壁を取り払います。それはテレプレゼンスやテレエデュケーションなど、没入型のVR / AR体験を提供します。一部の早期システムは、記録された映像からテクスチャモデルを再現するために明示的に非剛体登録を使用しています。しかし、それらは依然として遮蔽とテクスチャの不足に対して感受性があり、再構築の出力にはギャップとノイズが生じます。最近のNeRFを例に挙げる最新のニューラルブレイクスルーは、写真のようなリアルなボリュームレンダリングを実現するために、明示的な再構築ではなく、座標ベースのマルチレイヤパーセプトロン(MLP)を最適化します。
特定の動的なNeRFのバリエーションでは、追加の暗黙変形フィールドを使用して、すべてのライブフレームでの特徴の再現に対してカノニカルな特徴空間を保持しようとします。ただし、このようなカノニカルデザインは、重要なトポロジーの変化や大きな動きに対して敏感です。最近の手法では、平面分解やハッシュエンコーディングによって、3D特徴グリッドを簡潔に説明し、動作時のメモリとストレージの問題を解決しました。最近、静的なシーンを表すための明示的なパラダイムへ戻る3Dガウシアンスプラッティング(3DGS)があります。これにより、3DガウシアンプリミティブのGPUフレンドリーなラスタライゼーションに基づく、過去に実現できなかったリアルタイムかつ高品質な放射場レンダリングが可能です。いくつかの進行中のプロジェクトでは、3DGSを動的な設定に適応させるために変更されています。
一部は、動的なガウシアンの非剛体運動に注力し、その過程でレンダリングの品質を失います。他のものは、元の3DGSの明示的でGPUフレンドリーなエレガンスを失い、追加の暗黙の変形フィールドを使用して動きの情報を補完することができないため、長時間の動きを処理することができません。本研究では、ShanghaiTech大学、NeuDim、ByteDance、およびDGeneの研究チームが、高密度ビデオから高品質な4D人間パフォーマンスを再現するための完全に明示的かつコンパクトなガウシアンベースのHiFi4Gメソッドを紹介しています(図1を参照)。彼らの主なコンセプトは、非剛体トラッキングと3Dガウシアン表現を組み合わせて、運動と外観データを分離し、コンパクトで圧縮フレンドリーな表現を実現することです。HiFi4Gは、現在の暗黙のレンダリング技術の最適化速度、レンダリング品質、およびストレージオーバーヘッドに関して、顕著な改善を示します。
- ボーダフォンは、AWS DeepRacerとアクセンチュアを活用して機械学習のスキルを向上させています
- 費用効率の高いGPT NeoXおよびPythiaモデルの訓練における節約と正確性:AWS Trainiumの活用
- このAI論文は、イギリスのインペリアルカレッジロンドンとEleuther AIが対話エージェントの行動を理解するための枠組みとしてロールプレイを探究しています
彼らの明示的な表現の助けを借りて、彼らの結果はGPUベースのラスタ化パイプラインに容易に統合することもできます。これにより、VRヘッドセットを身に着けたままバーチャルリアリティで高品質な人間パフォーマンスを目の当たりにすることができます。研究チームはまず、細かいガウシアンと粗い変形グラフからなるデュアルグラフ技術を提供し、ガウシアン表現と非剛体トラッキングを自然に結び付けます。前者では、研究チームはNeuS2を使用してフレームごとのジオメトリプロキシを作成し、埋め込み変形(ED)をキーフレームのように使用します。このような明示的なトラッキング手法により、シーケンスがパートに分割され、各セグメント内で豊富な運動が与えられます。キーボリュームの更新と同様に、研究チームは3DGSを使用して現在のセグメント内のガウシアンの数を制限し、以前のセグメントから誤ったガウシアンを除外し、新しいガウシアンを更新します。
次に、研究チームは細かいガウシアングラフを構築し、粗いEDネットワークから各ガウシアン運動を補完します。ガウシアングラフをEDグラフで単純に曲げてスクリーン空間に当てはめると、顕著な不自然な歪みが生じます。制限なしに継続的な最適化が行われることから、ぶれのアーティファクトも生じます。ガウシアン特性の更新と非剛体運動の先行に適切なバランスを取るために、研究チームは4Dガウシアン最適化アプローチを提案しています。研究チームは、各ガウシアンの外観特性(不透明度、スケーリング係数、球面調和)の一貫性を保証するために、時間の経過による正則化を採用しています。研究チームは、近隣のガウシアン間でローカルにできるだけ剛体に近い運動を生成するために、運動特性(位置と回転)のスムーズ化項を提案しています。
非剛体移動を示す領域におけるちらつきアーティファクトを罰するため、これらの正則化に適応的な加重メカニズムが追加されています。研究チームは最適化後に空間的に時間的にコンパクトな4Dガウス関数を生成します。研究チームは、ガウスパラメータのための従来の残差補正、量子化、エントロピー符号化に従う同梱の圧縮技術を提案し、HiFi4Gを消費者にとって有用なものとしています。圧縮率は約25倍で、各フレームに必要なストレージ容量は2MB未満です。これにより、VRヘッドセットを含むさまざまなデバイスで人間のパフォーマンスを没入感ある観察することが可能です。
要点をまとめると、彼らの主な貢献は以下の通りです:
・研究チームは、人間のパフォーマンスレンダリングのためのガウススプラットと非剛体トラッキングを結ぶコンパクトな4Dガウス表現を提案しました。
・研究チームは、異なる正則化設計を使用して空間的に時間的に一貫性のある4Dガウス関数を効率的に復元するための二重グラフアプローチを提供します。
・研究チームは、複数のプラットフォーム上で低ストレージな没入型人間パフォーマンス体験を実現するための補完的な圧縮アプローチを提供します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Mixtral 8x7Bについて知っていること ミストラルの新しいオープンソースLLM」
- 「このAIニュースレターは、あなたが必要とするすべてです #77」
- 「マシンラーニングプロジェクトで私が犯した同じ過ちを com 因さないでください!」
- 『クラウド上で大規模な言語モデルを使用する際の性能とコストの最適化戦略』
- 「LLMアプリを作成するための5つのツール」
- このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています
- 「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」