「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」
Introducing ResFields an innovative AI approach to effectively model long and complex time signals, overcoming constraints of spatio-temporal neural fields.
ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパーセプトロンです。これは、連続信号を任意の次元上でエンコードでき、組み込まれた暗黙的な正則化を持ち、効果的な補間を容易にするスペクトルバイアスを持っているためです。これらの優れた特徴により、MLPは画像合成、アニメーション、テクスチャ作成、革新的な視点合成など、さまざまなアプリケーションで大きな成功を収めています。しかし、スペクトルバイアスのため、細かい特徴の収集と複雑な現実世界の信号の効果的な再現は、いずれも困難です。スペクトルバイアスとは、ニューラルネットワークが低周波数の関数を学習する傾向のことを指します。
スペクトルバイアスを克服するための以前の試みでは、位置エンコーディングやユニークな活性化関数が使用されてきました。しかし、これらのテクニックでも細かい特徴の捉えは困難であり、特に長い映画や動的な3Dシーンなどの大規模な空時データを扱う場合にはさらに困難です。MLPの容量を増やすために、全ニューロンの総数に関してネットワークの複雑さを増すという方法は簡単です。しかし、時間とメモリの複雑さはパラメータの総数に比例するため、このような手法は推論と最適化の遅さ、より高価なGPU RAMをもたらすことになります。
この研究で解決しようとする問題は、MLPニューラルフィールドのアーキテクチャ、入力エンコーディング、活性化関数を損なうことなく、モデルの容量を増やすことです。同時に、ニューラルネットワークの暗黙的な正則化特性を維持し、スペクトルバイアスの低減に既存の手法に追加することも望んでいます。基本的なコンセプトは、MLPレイヤーの一部または複数のレイヤーを、重みWiに加えられる学習可能な残差パラメータWi(t)として置き換えることです。ETH Zurich、Microsoft、University of Zurichの研究者は、このように作成されたニューラルフィールドをResFieldsと呼んでいます。
- ディープラーニングによる触媒性能の秘密の解明:異種触媒の高精度スクリーニングのための「グローバル+ローカル」畳み込みニューラルネットワークのディープダイブ
- 「時を歩く:SceNeRFlowは時間的一貫性を持つNeRFを生成するAIメソッドです」
- 強化学習 価値反復の簡単な入門
メタ学習によるMLPの重みと専用の別個のパラメータを維持するという選択肢もありますが、これには写真のようなリアルな再構築にスケールしない長時間のトレーニングが必要です。空時フィールドを分割し、異なる/ローカルなニューラル領域に適合させることは、モデリング能力を向上させるための最も一般的な方法です。しかし、これらのテクニックは、スパースなビューからの放射フィールドの再構築に重要なグリッド構造へのローカルな勾配変化により、グローバルな推論と汎化を妨げます。このモデル容量の増加方法には、3つの主な利点があります。
まず、基礎となるMLPは広がらないため、推論とトレーニングの速度が維持されます。これは、NeRFなどのリアルワールドの下流ニューラルフィールドアプリケーションにとって重要な特性です。NeRFは、ニューラルフィールドを繰り返しクエリすることで逆ボリュームレンダリングに対処することを目指しています。次に、空間の分割を重視する他の手法とは異なり、このモデリングはMLPの暗黙的な正則化と汎化能力を維持します。最後に、ResFieldsは適応性があり、拡張が容易であり、空時データのほとんどのMLPベースのアルゴリズムと互換性があります。ただし、訓練可能なパラメータが非制限されていないため、ResFieldsの単純な実装は補間品質が低下する可能性があります。
彼らは残差パラメータをグローバルな低ランクの基底集合と時変係数のセットとして実装することを提案しており、これはよく研究された低ランク分解層からのインスピレーションを得ています。このモデリングは、汎化能力を向上させ、余分なネットワークパラメータの保存によるメモリフットプリントを大幅に削減します。
彼らの主な貢献は次の通りです:
• ResFieldsを導入し、空時フィールドをモデリングするためのアーキテクチャに依存しないビルディングコンポーネントとして示しました。
• 彼らのアプローチが他の既存のアプローチをどのように向上させるかを体系的に示しました。
• スパースなキャリブレートされたRGBおよびRGBDカメラからの動的シーンのニューラル放射フィールド再構築、符号化距離関数を使用した時間的な3D形状モデリング、2Dビデオの近似という4つの難しいタスクにおいて最先端の結果を示しました。コード、モデル、収集されたデータはGitHubから入手できます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Fast.AIディープラーニングコースからの7つの教訓
- Google AIは、TPUを使用して流体の流れを計算するための新しいTensorFlowシミュレーションフレームワークを導入しました
- アデプトAIラボは、Persimmon-8Bという強力なフルパーミッシブライセンスの言語モデルをオープンソース化しました
- 「Falcon 180Bをご紹介します:1800億のパラメータを持つ、公開されている最大の言語モデル」
- ニューラル輝度場の不確実性をどのように測定できますか?BayesRaysを紹介します:NeRFの革命的な事後フレームワーク
- 「WavJourneyをご紹介します:大規模な言語モデルを使用した作曲用音声作成のためのAIフレームワーク」
- 「Scikit-Learnによるアンサンブル学習:フレンドリーな紹介」