「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

Introducing ResFields an innovative AI approach to effectively model long and complex time signals, overcoming constraints of spatio-temporal neural fields.

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパーセプトロンです。これは、連続信号を任意の次元上でエンコードでき、組み込まれた暗黙的な正則化を持ち、効果的な補間を容易にするスペクトルバイアスを持っているためです。これらの優れた特徴により、MLPは画像合成、アニメーション、テクスチャ作成、革新的な視点合成など、さまざまなアプリケーションで大きな成功を収めています。しかし、スペクトルバイアスのため、細かい特徴の収集と複雑な現実世界の信号の効果的な再現は、いずれも困難です。スペクトルバイアスとは、ニューラルネットワークが低周波数の関数を学習する傾向のことを指します。

スペクトルバイアスを克服するための以前の試みでは、位置エンコーディングやユニークな活性化関数が使用されてきました。しかし、これらのテクニックでも細かい特徴の捉えは困難であり、特に長い映画や動的な3Dシーンなどの大規模な空時データを扱う場合にはさらに困難です。MLPの容量を増やすために、全ニューロンの総数に関してネットワークの複雑さを増すという方法は簡単です。しかし、時間とメモリの複雑さはパラメータの総数に比例するため、このような手法は推論と最適化の遅さ、より高価なGPU RAMをもたらすことになります。

この研究で解決しようとする問題は、MLPニューラルフィールドのアーキテクチャ、入力エンコーディング、活性化関数を損なうことなく、モデルの容量を増やすことです。同時に、ニューラルネットワークの暗黙的な正則化特性を維持し、スペクトルバイアスの低減に既存の手法に追加することも望んでいます。基本的なコンセプトは、MLPレイヤーの一部または複数のレイヤーを、重みWiに加えられる学習可能な残差パラメータWi(t)として置き換えることです。ETH Zurich、Microsoft、University of Zurichの研究者は、このように作成されたニューラルフィールドをResFieldsと呼んでいます。

メタ学習によるMLPの重みと専用の別個のパラメータを維持するという選択肢もありますが、これには写真のようなリアルな再構築にスケールしない長時間のトレーニングが必要です。空時フィールドを分割し、異なる/ローカルなニューラル領域に適合させることは、モデリング能力を向上させるための最も一般的な方法です。しかし、これらのテクニックは、スパースなビューからの放射フィールドの再構築に重要なグリッド構造へのローカルな勾配変化により、グローバルな推論と汎化を妨げます。このモデル容量の増加方法には、3つの主な利点があります。

まず、基礎となるMLPは広がらないため、推論とトレーニングの速度が維持されます。これは、NeRFなどのリアルワールドの下流ニューラルフィールドアプリケーションにとって重要な特性です。NeRFは、ニューラルフィールドを繰り返しクエリすることで逆ボリュームレンダリングに対処することを目指しています。次に、空間の分割を重視する他の手法とは異なり、このモデリングはMLPの暗黙的な正則化と汎化能力を維持します。最後に、ResFieldsは適応性があり、拡張が容易であり、空時データのほとんどのMLPベースのアルゴリズムと互換性があります。ただし、訓練可能なパラメータが非制限されていないため、ResFieldsの単純な実装は補間品質が低下する可能性があります。

彼らは残差パラメータをグローバルな低ランクの基底集合と時変係数のセットとして実装することを提案しており、これはよく研究された低ランク分解層からのインスピレーションを得ています。このモデリングは、汎化能力を向上させ、余分なネットワークパラメータの保存によるメモリフットプリントを大幅に削減します。

彼らの主な貢献は次の通りです:

• ResFieldsを導入し、空時フィールドをモデリングするためのアーキテクチャに依存しないビルディングコンポーネントとして示しました。

• 彼らのアプローチが他の既存のアプローチをどのように向上させるかを体系的に示しました。

• スパースなキャリブレートされたRGBおよびRGBDカメラからの動的シーンのニューラル放射フィールド再構築、符号化距離関数を使用した時間的な3D形状モデリング、2Dビデオの近似という4つの難しいタスクにおいて最先端の結果を示しました。コード、モデル、収集されたデータはGitHubから入手できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...

AIニュース

マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します

Microsoftは最近、労働組合アメリカ連邦労働総評議会(AFL-CIO)と包括的な対話を開始するために、人工知能(AI)が労働力に...

AIニュース

「DALL-E3」を詳しく見てみる

詳細な記事でOpenAIのDALL-E 3の進歩について探求しましょうさまざまなプロンプトでAIをテストし、ChatGPTとの高度な統合、優...

機械学習

プラグインを使ったチャットボットのためのカスタムスキルの作成

「生成型AIを活用するチャットボットは、外部ソースと連携するプラグインを使用してドメインの専門知識を提供し、個別の応答...

機械学習

チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速

産業革命の発祥地であるイギリスが、次なる革命に巨額な投資を行うことを発表しました。 イギリス政府は、世界最速のAIスパー...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...