「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

Introducing ResFields an innovative AI approach to effectively model long and complex time signals, overcoming constraints of spatio-temporal neural fields.

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパーセプトロンです。これは、連続信号を任意の次元上でエンコードでき、組み込まれた暗黙的な正則化を持ち、効果的な補間を容易にするスペクトルバイアスを持っているためです。これらの優れた特徴により、MLPは画像合成、アニメーション、テクスチャ作成、革新的な視点合成など、さまざまなアプリケーションで大きな成功を収めています。しかし、スペクトルバイアスのため、細かい特徴の収集と複雑な現実世界の信号の効果的な再現は、いずれも困難です。スペクトルバイアスとは、ニューラルネットワークが低周波数の関数を学習する傾向のことを指します。

スペクトルバイアスを克服するための以前の試みでは、位置エンコーディングやユニークな活性化関数が使用されてきました。しかし、これらのテクニックでも細かい特徴の捉えは困難であり、特に長い映画や動的な3Dシーンなどの大規模な空時データを扱う場合にはさらに困難です。MLPの容量を増やすために、全ニューロンの総数に関してネットワークの複雑さを増すという方法は簡単です。しかし、時間とメモリの複雑さはパラメータの総数に比例するため、このような手法は推論と最適化の遅さ、より高価なGPU RAMをもたらすことになります。

この研究で解決しようとする問題は、MLPニューラルフィールドのアーキテクチャ、入力エンコーディング、活性化関数を損なうことなく、モデルの容量を増やすことです。同時に、ニューラルネットワークの暗黙的な正則化特性を維持し、スペクトルバイアスの低減に既存の手法に追加することも望んでいます。基本的なコンセプトは、MLPレイヤーの一部または複数のレイヤーを、重みWiに加えられる学習可能な残差パラメータWi(t)として置き換えることです。ETH Zurich、Microsoft、University of Zurichの研究者は、このように作成されたニューラルフィールドをResFieldsと呼んでいます。

メタ学習によるMLPの重みと専用の別個のパラメータを維持するという選択肢もありますが、これには写真のようなリアルな再構築にスケールしない長時間のトレーニングが必要です。空時フィールドを分割し、異なる/ローカルなニューラル領域に適合させることは、モデリング能力を向上させるための最も一般的な方法です。しかし、これらのテクニックは、スパースなビューからの放射フィールドの再構築に重要なグリッド構造へのローカルな勾配変化により、グローバルな推論と汎化を妨げます。このモデル容量の増加方法には、3つの主な利点があります。

まず、基礎となるMLPは広がらないため、推論とトレーニングの速度が維持されます。これは、NeRFなどのリアルワールドの下流ニューラルフィールドアプリケーションにとって重要な特性です。NeRFは、ニューラルフィールドを繰り返しクエリすることで逆ボリュームレンダリングに対処することを目指しています。次に、空間の分割を重視する他の手法とは異なり、このモデリングはMLPの暗黙的な正則化と汎化能力を維持します。最後に、ResFieldsは適応性があり、拡張が容易であり、空時データのほとんどのMLPベースのアルゴリズムと互換性があります。ただし、訓練可能なパラメータが非制限されていないため、ResFieldsの単純な実装は補間品質が低下する可能性があります。

彼らは残差パラメータをグローバルな低ランクの基底集合と時変係数のセットとして実装することを提案しており、これはよく研究された低ランク分解層からのインスピレーションを得ています。このモデリングは、汎化能力を向上させ、余分なネットワークパラメータの保存によるメモリフットプリントを大幅に削減します。

彼らの主な貢献は次の通りです:

• ResFieldsを導入し、空時フィールドをモデリングするためのアーキテクチャに依存しないビルディングコンポーネントとして示しました。

• 彼らのアプローチが他の既存のアプローチをどのように向上させるかを体系的に示しました。

• スパースなキャリブレートされたRGBおよびRGBDカメラからの動的シーンのニューラル放射フィールド再構築、符号化距離関数を使用した時間的な3D形状モデリング、2Dビデオの近似という4つの難しいタスクにおいて最先端の結果を示しました。コード、モデル、収集されたデータはGitHubから入手できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

エンジニアにとって役立つ6つのリソース

「このリソースのコレクションは、さまざまな経験レベルを持つ多くのAIのプロフェッショナルに役立つでしょうブックマークに...

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

機械学習

このAI論文は、概念関連伝播(CRP)を用いて、「どこ」や「何」を解き明かすための深層学習モデルの理解に新たなアプローチを提案しています

“`html 機械学習と人工知能の分野は非常に重要になっています。日々進歩している新たな技術があります。この領域はあら...

機械学習

このAI論文は、周波数領域での差分プライバシーを利用したプライバシー保護顔認識手法を提案しています

ディープラーニングは、畳み込みニューラルネットワークに基づいた顔認識モデルを大幅に進化させました。これらのモデルは高...

機械学習

「LeNetのマスタリング:アーキテクチャの洞察と実践的な実装」

はじめに LeNet-5は、1990年代にYann LeCunと彼のチームによって開発された画期的な畳み込みニューラルネットワーク(CNN)で...

人工知能

スタビリティAIの危機 - CEOの論争の中で主要メンバーが辞任!

ロンドンを拠点とするスタートアップ企業であるStability AI Ltd. はかつて画期的なStable Diffusion AIモデルでテック界を驚...