メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

This AI method proposes perceptual quality metrics for video frame interpolation.

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 30FPSよりも非常に満足感があります。前者は、まるでそれを目撃しているかのように、コンテンツに没頭させます。しかし、このコンテンツを楽しむことができる人は皆んなではありません。4K 60FPSの動画1分のデータコストは、1080P 30FPSのデータコストの約6倍もかかります。多くのユーザーにはアクセスできないのです。

しかし、配信される動画の解像度と/またはフレームレートを上げることで、この問題に対処することが可能です。スーパーレゾリューション手法は、動画の解像度を上げることに取り組み、ビデオ補間手法はビデオ内のフレーム数を増やすことに焦点を当てます。

ビデオフレーム補間は、既存のフレーム間の動きを推定することにより、ビデオシーケンスに新しいフレームを追加するために使用されます。この技術は、スローモーションビデオ、フレームレート変換、ビデオ圧縮など、さまざまなアプリケーションで広く使用されています。生成されたビデオは通常、より楽しいものになります。

近年、ビデオフレーム補間に関する研究は大きな進歩を遂げています。彼らは中間フレームを非常に正確に生成し、楽しい視聴体験を提供することができます。

しかし、補間結果の品質を測定することは、長い間難しい課題でした。既存の手法では、補間結果の品質を測定するために市販のメトリックを使用することがほとんどです。ビデオフレーム補間の結果は通常、固有のアーティファクトがあり、既存の品質メトリックは、補間結果を測定する際に人間の知覚と一致しないことがあります。

一部の手法では、主観的なテストを行ってより正確な測定を行っていますが、それは時間がかかります。ユーザースタディを採用したわずかな手法を除いてはです。では、私たちのビデオ補間手法の品質を正確に測定するにはどうすればよいでしょうか?その質問に答える時が来ました。

ビデオ補間によって引き起こされる固有のアーティファクト。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

研究者のグループは、ビデオフレーム補間の結果を測定するための専用の知覚品質メトリックを提案しました。彼らはSwin Transformersに基づいたビデオ知覚品質評価のための新しいニューラルネットワークアーキテクチャを設計しました。

このネットワークは、オリジナルのビデオシーケンスからのフレームと補間フレームのペアを入力とし、2つのフレーム間の知覚的類似性を表すスコアを出力します。このようなネットワークを実現するための最初のステップは、データセットの準備であり、そこから彼らは始めました。彼らは大規模なビデオフレーム補間知覚類似性データセットを構築しました。このデータセットには、さまざまなビデオからのフレームのペアと、それらの知覚的類似性に関する人間の判断が含まれています。このデータセットは、L1とSSIMの目的メトリックの組み合わせを使用してネットワークをトレーニングするために使用されます。

提案されたネットワーク構造。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

L1ロスは、予測されたスコアと正解スコアの絶対差を測定します。一方、SSIMロスは2つの画像間の構造的類似性を測定します。これら2つのロスを組み合わせることで、ネットワークは正確で人間の知覚と一致するスコアを予測するように訓練されます。提案された手法の主な利点は、参照フレームに依存しないことです。そのため、通常はその情報を利用できないクライアントデバイス上で実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学...

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...

AIニュース

『AIが世界中のニュースルームで変化を生み出している』

「私たちの最新の研究レポート『変化を生み出す』は、ニュースルームが現在AIを活用していることを共有しています」

人工知能

「先延ばしハック:ChatGPTを使ってプロジェクトをビデオゲームに変える」

「あなたのやるべきことリストを、ドーパミンが絶えず放出されるワクワクするビデオゲームに変えましょう」

データサイエンス

「線形代数からディープラーニングまで 7冊の本(2023年冬のアップデート)」

「Towards Data Science」への初めての投稿では、私は線形代数から現代のディープラーニングまで、あらゆる内容をカバーする...