韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

In this Korean AI paper, a new frame-based video representation called FFNeRV is proposed. It utilizes frame-based flow maps and multi-resolution spatio-temporal grids.

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。

図1は、提案されたフローガイドのフレームごとの表現(a)、フレームごとの動画表現(b)、ピクセルごとの動画表現(FFNeRV)(c)を示しています。

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。

各時刻座標は、MLPと畳み込み層のスタックによって作成されたビデオフレームによって表されます。基本的なニューラルフィールドの設計に比べて、私たちの手法はエンコーディング時間を大幅に削減し、一般的なビデオ圧縮技術を上回ります。このパラダイムは、最近提案されたE-NeRVによっても追求され、さらにビデオの品質を向上させるものです。図1に示すように、彼らはフローガイドのフレームごとのニューラル表現(FFNeRV)を提供しています。彼らは光学フローをフレームごとの表現に埋め込んで、時間的冗長性を利用しています。これは一般的なビデオコーデックからのインスピレーションを得たものです。フローによって導かれる近くのフレームを組み合わせることにより、FFNeRVは前のフレームからピクセルの再利用を強制するビデオフレームを作成します。ネットワークがフレーム間で同じピクセル値を再度覚えることを避けるように促すことで、パラメータの効率性が劇的に改善されます。

実験結果によると、UVGデータセットでのビデオ圧縮とフレーム補間では、FFNeRVが他のフレームごとのアルゴリズムを上回っています。さらなる圧縮性能の向上のために、連続的な時間座標を対応する潜在的な特徴にマッピングするために、固定された空間解像度の多重解像度の時間グリッドを使用することを提案しています。これは、グリッドベースのニューラル表現に触発されたものです。さらに、より縮小された畳み込みアーキテクチャを利用することを提案しています。彼らは、フレームごとのフロー表現において、高品質の画像と軽量なニューラルネットワークを生成する生成モデルによってドライブされたグループとポイントワイズの畳み込みを使用しています。FFNeRVは、量子化意識トレーニングとエントロピー符号化を使用した人気のあるビデオコーデック(H.264およびHEVC)を上回り、最先端のビデオ圧縮アルゴリズムと同等の性能を発揮します。コードの実装はNeRVに基づいており、GitHubで利用可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ジュネーブ大学の研究者は、多剤耐性(MDR)腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています

マシンラーニングは、医療で非常に重要なツールとして登場し、業界のさまざまな側面を革新しています。その主な応用の一つは...

データサイエンス

「GATE DA 2024のサンプル問題集」

導入 GATE 2024の志望者の皆さん、素晴らしいニュースです!インド科学研究所(IISc)が、今後のGATE試験のためのサンプル問...

機械学習

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にない...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

人工知能

「APIガバナンスによるAIインフラストラクチャのコスト削減」

APIガバナンスは、リソースの割り当てを最適化し、利用状況をモニタリングし、セキュリティを強化することによって、組織がAI...

データサイエンス

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能(AI)は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、...