Learn more about Search Results シンセシス
- You may be interested
- 「ボトルネックアダプタを使用した効率的...
- AI生成テキストの検出の課題
- 「AR技術が非口述型自閉症の人々に声を与...
- バッテリー最適化の解除:機械学習とナノ...
- 「iPhoneに感染させるために使用された3つ...
- NotebookLM グーグルの実験的なAIノートブ...
- ソフトウェア開発の革命:AIとコードのダ...
- 「ビカス・アグラワルとともにデータサイ...
- 悪質なコンテンツ検出のためのLLM:利点と...
- XGBoost ディープラーニングがグラディエ...
- 「2024年に試してみるべき5つの最高のベク...
- ドキュメントAIの加速
- 「生成AIに関する一般的な迷信を解明する ...
- 巨大なデータベース内のデータ検索を加速...
- マイクロソフトの研究者たちは「エモーシ...
「PhysGaussian(フィジカルガウシアン)に会いましょう:物理的に根拠のあるニュートン力学を3Dガウス関数に組み込むことで高品質な新世代モーションシンセシスを生み出す人工知能技術」
最近のニューラル・ラディアンス・フィールド(NeRF)の進歩により、3Dグラフィックスと知覚の進展が示されてきました。さらに、最先端の3Dガウススプラット(GS)フレームワークがこれらの改善を促進しています。いくつかの成功にもかかわらず、新たな動力学を創出するにはさらなる応用が必要です。NeRFのための新しいポーズを作り出す取り組みが存在している一方で、研究チームは主に準静的な形状変化のジョブに焦点を当てており、しばしばテトラヘドラなどの粗いプロキシメッシュ内にメッシュ化または埋め込み視覚ジオメトリを必要とします。ジオメトリの構築、シミュレーションの準備(しばしばテトラヘドラカチオンを使用)、物理モデリング、そしてシーンの表示は、従来の物理ベースの視覚コンテンツ作成プロセスにおいて労力のかかるステップとなっています。 その効果はありますが、このシーケンスにはシミュレーションと最終的な表示の間に不一致を引き起こす中間ステップが含まれています。同様の傾向はNeRFのパラダイムでも見られ、シミュレーションジオメトリがレンダリングジオメトリと絡み合っています。この分離は、物質の物理的特性と外観が不可分に結びついている自然界に反します。彼らの一般的な理論は、レンダリングとシミュレーションの両方に使用される材料の単一モデルをサポートすることで、これらの2つの側面を調和させることを目指しています。UCLA、浙江大学、ユタ大学の研究者らは、この目標を達成するために、物理統合型3Dガウス生成ダイナミクスであるPhysGaussianを提供しています。 この革新的な手法のおかげで、3Dガウス関数は物理的に正確なニュートン力学を捉えることができ、固体材料特有の現実的な振る舞いや慣性効果を兼ね備えています。具体的には、研究チームは3Dガウス関数に弾性エネルギーや応力、可塑性などの機械的特性、速度やひずみなどの運動学的特性を持たせることで、PhysGaussianを提供しています。この手法は、技術的なオブジェクトのメッシュ化の必要性をなくすことで、モーション作成手順をはるかに簡素化します。 さらに、研究チームはさまざまな材料に関して広範な実験とベンチマークを行っています。効果的なMPMシミュレーションとリアルタイムGSレンダリングの助けを借りて、基本的なダイナミクスシナリオでリアルタイムのパフォーマンスを実現しました。 要約すると、彼らの貢献は以下の通りです。 ・3Dガウス運動学の為の連続体力学:研究チームは、3Dガウスカーネルを成長させ、物理的偏微分方程式(PDE)によって制御される変位フィールドで生成される球面調和関数を持つ連続体力学に基づく手法を提供しています。 ・統合されたシミュレーション-レンダリングプロセス:研究チームは、単一の3Dガウス表現を使って効果的なシミュレーションとレンダリングプロセスを提供しています。明示的なオブジェクトのメッシュ化の必要性を排除することで、モーション作成手順がはるかに簡単になります。 ・適応可能なベンチマーキングと実験:研究チームはさまざまな材料に対して広範な実験とベンチマークを行っています。効果的なMPMシミュレーションとリアルタイムGSレンダリングのおかげで、基本的なダイナミクスシナリオにおいてリアルタイムのパフォーマンスを実現しました。
「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」
紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディアで有名人のミームやAI声の上書きを見たことがあるかもしれません。それがどのように行われているのか疑問に思ったことはありませんか?Eleven Labsなど、多くのプラットフォームがAPIを提供していますが、オープンソースソフトウェアを使用して無料で行うことはできるのでしょうか?短い答えは「YES」です。オープンソースには音声合成を実現するためのTTSモデルとリップシンクツールがあります。したがって、この記事では、音声クローンとリップシンクのためのオープンソースのツールとモデルを探求してみましょう。 学習目標 AI音声クローンとリップシンクのためのオープンソースツールを探求する。 FFmpegとWhisperを使用してビデオを転写する。 Coqui-AIのxTTSモデルを使用して声をクローンする。 Wav2Lipを使用してビデオのリップシンクを行う。 この技術の実世界での使用例を探求する。 この記事はData Science Blogathonの一環として公開されました。 オープンソーススタック 既にご存じのように、私たちはOpenAIのWhisper、FFmpeg、Coqui-aiのxTTSモデル、およびWav2lipを私たちの技術スタックとして使用します。しかし、コードに入る前に、これらのツールについて簡単に説明しましょう。そして、これらのプロジェクトの作者に感謝します。 Whisper: WhisperはOpenAIのASR(自動音声認識)モデルです。これは、多様なオーディオデータと対応するトランスクリプトを用いて、650,000時間以上のトレーニングを受けたエンコーダ-デコーダトランスフォーマーモデルです。そのため、オーディオからの多言語の転写に非常に適しています。 エンコーダは、30秒のオーディオチャンクのログメルスペクトログラムを受け取ります。各エンコーダブロックは、オーディオ信号の異なる部分を理解するためにセルフアテンションを使用します。デコーダは、エンコーダからの隠れ状態情報と学習済みの位置エンコーディングを受け取ります。デコーダはセルフアテンションとクロスアテンションを使用して次のトークンを予測します。プロセスの最後に、認識されたテキストを表すトークンのシーケンスを出力します。Whisperの詳細については、公式リポジトリを参照してください。 Coqui TTS: TTSはCoqui-aiのオープンソースライブラリです。これは複数のテキスト読み上げモデルをホストしています。Bark、Tortoise、xTTSなどのエンドツーエンドモデル、FastSpeechなどのスペクトログラムモデル、Hifi-GAN、MelGANなどのボコーダなどがあります。さらに、テキスト読み上げモデルの推論、調整、トレーニングのための統一されたAPIを提供しています。このプロジェクトでは、xTTSというエンドツーエンドの多言語音声クローニングモデルを使用します。これは英語、日本語、ヒンディー語、中国語などを含む16の言語をサポートしています。TTSについての詳細情報は、公式のTTSリポジトリを参照してください。 Wav2Lip: Wav2Lipは、「A Lip Sync…
Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。 このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。 特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。 図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。 高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。 注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます: 1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。
コロッシャン クリエーター レビュー: 最高のAIビデオジェネレーター?
AIビデオジェネレーターをお探しですか?このColossyan Creatorのレビューをチェックして、その特徴や他の選択肢との比較を学びましょう
「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」
ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとするコンピュータビジョンとグラフィックのタスクです。この技術の実用性は、高忠実度なリアルタイムレンダリング能力に依存しており、VR / AR、スポーツ放送、芸術的パフォーマンスキャプチャなどで使用されます。従来のアプローチでは、動的な3Dシーンをテクスチャ付きメッシュシーケンスとして表現し、複雑なハードウェアを使用して再構築しますが、制御された環境に限定されます。最近の研究では、RGBビデオから動的な3Dシーンを再構築するための暗黙のニューラル表現が、微分可能なレンダリングを通じて非常に成功しています。最近開発された手法では、対象シーンを動的な放射輝度場としてモデル化し、ボリュームレンダリングを使用して画像を合成し、最適化のために入力画像と比較します。動的ビューシンセシスで印象的な結果を達成しているにもかかわらず、既存の手法は通常、1080pの解像度で画像をレンダリングするために数秒または数分の時間を要します。 静的なビューシンセシスの手法に触発され、特定のダイナミックビューシンセシスのテクニックは、コストまたはネットワーク評価の数を減らすことによってレンダリング速度を向上させます。これらの戦略を採用することにより、MLPマップとして知られる表現は、ダイナミックな前景人物のためのレンダリング速度を41.7 fpsに達成します。ただし、レンダリング速度の課題は依然残ります。MLPマップは、中程度の解像度の画像(384×512)を合成する場合にのみリアルタイムのパフォーマンスを発揮します。4K解像度の画像をレンダリングする場合、その速度は1.3 FPSまで低下します。 この研究では、4K4Dという新しいニューラル表現を紹介し、動的な3Dシーンのモデリングとレンダリングに使用します。4K4Dは、レンダリングの速度を大幅に改善し、レンダリングの品質において競争力を維持しています。システムの概要を以下に示します。 このコアのイノベーションは、4Dポイントクラウド表現とハイブリッド外観モデルにあります。具体的には、動的なシーンでは、空間刻みアルゴリズムを使用して取得した荒いポイントクラウドシーケンスを使用し、各ポイントの位置を学習可能なベクトルとしてモデル化します。4D特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それをMLPネットワークに入力してポイントの半径、密度、および球面調和(SH)係数を予測します。 4D特徴グリッドは、ポイントクラウドに空間的正則化を自然に適用し、最適化のロバスト性を向上させます。さらに、異なる可能な深さの剥離アルゴリズムを開発し、ハードウェアラスタライザを使用して前例のないレンダリング速度を実現します。 研究では、MLPベースのSHモデルが動的シーンの外観を表現する際の課題を特定しています。これに対処するために、SHモデルを補完するための画像ブレンディングモデルを導入して、シーンの外観を表現します。重要な設計の選択肢により、画像ブレンディングネットワークは視線方向と独立しており、トレーニング後の事前計算を可能にし、レンダリング速度を向上させます。ただし、この戦略は、ビュー方向に沿った離散動作の課題を導入し、連続のSHモデルを使用して緩和されます。3Dガウススプラッティングとは異なり、SHモデルのみを使用するのではなく、このハイブリッド外観モデルは入力画像で捉えられた情報を十分に活用し、レンダリング品質を効果的に向上させます。 著者によって報告された広範な実験では、4K4Dは注目すべきレンダリング品質であると同時に、桁違いに高速なレンダリングを達成しています。RTX 4090 GPUを使用した場合、この手法は1080pの解像度で最大400 FPS、4Kの解像度で80 FPSに達するとのことです。 以下の画像は、最先端の技術との視覚的比較です。 これは4K4Dの概要であり、ハードウェアラスタライゼーションをサポートし、前例のない高速なレンダリングを可能にする革新的なAI 4Dポイントクラウドの表現です。詳細を知りたい方は、以下に引用されたリンクを参照していただくか、お気軽にお問い合わせください。
メタリサーチャーズがVR-NeRFを紹介:高精細なキャプチャーと仮想現実の歩行可能な空間のレンダリングのための先進的なエンドツーエンドAIシステム
手頃な価格の仮想現実(VR)技術の登場により、現実的なVR写真やビデオなどの高度に没入型の映像メディアが大幅に成長しています。既存の手法は一般的に次の2つのカテゴリに分類されます: 直径が1メートル未満の小さなヘッドボックスでの高品質のビュー合成は、ユーザーの動きを制限してしまいます。 低品質またはフレームレートのシーンスケールの自由視点ビューシンセシスでは、ユーザーは自由に移動できますが、レンダリングされた画像の品質が低下します。 既存の手法の制限に対処するため、本論文の著者たちはVR-NeRFを導入しました。これは、ユーザーが実世界の空間を歩き回り、探索できる現実的なVR体験を作成することができるシステムです。研究者たちが使用したデータセットは、数千の5000万画素のHDR画像から成り、データセットのいくつかは100ギガピクセルを超えているため、彼らのシステムは高品質なビュー合成を実現できます。 最近、新鮮味のある視点合成を生成する能力から、神経輻射場(NeRF)の人気が大幅に増しています。ただし、既存のNeRF手法は大きくて複雑なシーンには適用できません。 研究者によって提案されたNeRF手法は、彼らが設計した高品質なデータセットに特化しており、高品質なリアルタイムVRレンダリングをサポートすることができます。研究者が使用したマルチカメラリグは、シーンの多数の均一に分布したHDR写真をキャプチャする特別なデバイスです。 VR-NeRFはまた、カスタムGPUレンダラも持っており、高品質なVRへのレンダリングを可能にします。また、レンダラは一定のフレームレートで36 Hzで実行されるため、魅力的なVR体験を提供します。研究者たちは、いくつかの改善を加えた瞬時ニューラルグラフィックスプリミティブ(NGP)を拡張し、正確な色で画像を生成し、品質と速度のトレードオフを最適化できるようにしています。 研究者たちはまた、彼らが挑戦的な高品質データセットでの結果の品質をデモンストレーションし、彼らの手法とデータセットを既存のベースラインと比較しました。彼らは、彼らの手法が歩行可能な空間の広いダイナミックレンジで高品質なVRレンダリングを生成できることを示しました。 結論として、VR-NeRFはVRでの歩行可能な空間のキャプチャ、再構築、およびレンダリングに対する包括的なアプローチです。この手法は、より高い解像度、フレームレート、および視覚的忠実度を実現し、包括的なVR体験を可能にします。研究者たちが提案した手法は、既存のVRアプリケーションの問題を解決し、ユーザーにより大きくて複雑なシーンを詳細に体験させる可能性があります。
(sekai no toppu 10 no sōsei AI sutātappu)
はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャラクター、テキストから画像へのリソースの優位性、そしてChatGPTの成功は、そのハイプの理由のほんの一部です。より高速な処理速度と低コストにより、生成AIは人間の創造性に追いつきつつあります。生成AIに精通した熱狂的な愛好家の中には、このソフトウェアの助けを借りて優れた生成AIソリューションを作り上げた人々もいます。では、このソフトウェアの助けを借りて世界に優れた体験を提供してきたトップ10の生成AIスタートアップをご紹介しましょう。 トップ10の生成AIスタートアップ 名前 設立年 評価 OpenAI 2015 $28 million Hugging Face 2016 $15 million Anthropic 2021 $100 million (年間売上高) Inflection AI 2022 $1.3 billion (調達資金)…
「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」
AIツールは急速に開発が進んでおり、定期的に新しいツールが導入されています。以下にいくつかのAIツールを紹介します。これらは日常のルーティンを強化することができます。 AdCreative.ai AdCreative.aiは、究極の人工知能ソリューションであることから、広告とソーシャルメディアの活動を強化することができます。 Hostinger AIウェブサイトビルダー Hostinger AIウェブサイトビルダーは、直感的なインターフェースと高度なAI機能を組み合わせ、どんな目的にも対応できるウェブサイトの作成をサポートします。 Motion Motionは、会議、タスク、プロジェクトを考慮した毎日のスケジュールを作成するためにAIを使用する賢いツールです。 Otter AI 人工知能を活用したOtter.AIは、共有可能で検索可能でアクセスしやすく安全な会議のメモのリアルタイムトランスクリプションを提供します。 Sanebox Saneboxは、AI駆動のメール最適化ツールです。SaneBoxのA.I.は重要なメールを特定し、残りを自動的に整理して集中力を高めるお手伝いをします。 Notion AI Notion AIは、Notionのワークスペース内で直接執筆、ブレインストーミング、編集、要約を手助けする執筆アシスタントです。 Pecan AI Pecan AIは、予測アナリティクスを自動化して、今日のビジネスの課題である予算縮小、コスト上昇、データサイエンスとAIリソースの限られた資源を解決します。Pecanの低コード予測モデリングプラットフォームは、データに基づいた意思決定を導き、ビジネスチームが目標を達成するのをサポートします。 Aragon Aragonを使用すると、最新のAI技術を活用して、迅速に自分自身の高品質のプロフェッショナルなヘッドショットを作成することができます。写真スタジオの予約やドレッシングアップの手間を省くことができます。…
「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」
「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、音声はますます重要性を増しています...」
「ミケランジェロのAIいとこ:ニューランジェロは高精度な3D表面再構築が可能なAIモデルです[コードも含まれています]」
ニューラルネットワークは近年かなり進化しており、ほとんどのアプリケーションで使用されています。最も興味深いユースケースの1つは、現実世界の3Dモデリングです。私たちは、通常のカメラを使用してシーンの3Dジオメトリを正確にキャプチャできるニューラル輝度場(NeRF)を見てきました。これらの進歩により、3D表面再構成の新たなページが開かれました。 3D表面再構成の目標は、複数の視点からキャプチャされた複数の画像を分析して、シーンの詳細なジオメトリ構造を回復することです。これらの再構成された表面には、拡張/仮想/複合現実のための3Dアセットの生成や、自律型ロボットのナビゲーションのための環境マッピングなど、さまざまなアプリケーションに適用できる貴重な構造情報が含まれています。特に興味深いアプローチは、単一のRGBカメラを使用した写真測量的な表面再構成です。これにより、一般的なモバイルデバイスを使用して、ユーザーは簡単に現実のデジタルレプリカを作成することができます。 3D表面再構成は、複数の画像から密なジオメトリ構造を生成することで、拡張/仮想/複合現実やロボット工学など、さまざまなアプリケーションに広範な活用が可能です。多視点ステレオアルゴリズムなどの古典的な手法は、疑わしい観測結果に対して苦労し、不正確または不完全な結果を生み出すことがよくあります。ニューラル表面再構成手法は、シーンを暗黙的な関数として表現するために座標ベースの多層パーセプトロン(MLP)を活用することで、有望な解決策として登場しました。ただし、現在の手法の忠実度は、MLPの容量とスケーリングがうまくいきません。 スケーリング問題を解決する方法があったらどうでしょうか?RGB入力だけで本当に正確な3D表面モデルを生成できたらどうでしょうか?それでは、ニューラルアンジェロに会いましょう。 ニューラルアンジェロはRGB画像から3D表面を再構築できます。 ソース:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf ニューラルアンジェロは、インスタントNGP(ニューラルグラフィックスプリミティブ)のパワーとニューラルSDF表現を組み合わせて高品質の表面再構築を実現するフレームワークです。 ニューラルアンジェロは、ニューラル符号化された符号距離関数(SDF)表現としてインスタントNGPを採用しています。インスタントNGPは、多分解ハッシュエンコーディングを備えたハイブリッド3Dグリッド構造と、ログリニアメモリフットプリントを維持しながら表現力を向上させる軽量MLPを導入しています。このハイブリッド表現は、ニューラルフィールドの表現力を大幅に向上させ、細部までの情報をキャプチャする能力に優れています。 ハッシュ符号化された表面再構築の品質をさらに向上させるために、ニューラルアンジェロは2つのキーコンセプトを導入しています。まず、表面法線などの高次導関数を計算するために数値勾配が使用され、最適化プロセスの安定化に貢献します。次に、進行的な最適化スケジュールが実装され、異なる詳細レベルでの構造の回復が可能になり、包括的な再構築アプローチが実現されます。これらのテクニックは相互に作用し、再構築の精度とビューシンセシスの品質の両方において大幅な改善をもたらします。 Neuralangeloの概要。 ソース:https://research.nvidia.com/labs/dir/neuralangelo/poster.pdf ニューラルアンジェロは、マルチ解像度ハッシュ符号化のパワーをニューラルSDF表現に自然に組み込んでおり、再構築能力が向上しています。さらに、数値勾配とアイコナール正則化の使用により、ハッシュ符号化された表面再構築の品質が向上し、最適化プロセスが安定化します。最後に、標準ベンチマークと実世界のシーンでの幅広い実験により、ニューラルアンジェロの効果が実証され、再構築の精度とビューシンセシスの品質の両方において、従来の画像ベースのニューラル表面再構築手法に比べて大幅な改善が示されています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.