メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

This AI method proposes perceptual quality metrics for video frame interpolation.

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 30FPSよりも非常に満足感があります。前者は、まるでそれを目撃しているかのように、コンテンツに没頭させます。しかし、このコンテンツを楽しむことができる人は皆んなではありません。4K 60FPSの動画1分のデータコストは、1080P 30FPSのデータコストの約6倍もかかります。多くのユーザーにはアクセスできないのです。

しかし、配信される動画の解像度と/またはフレームレートを上げることで、この問題に対処することが可能です。スーパーレゾリューション手法は、動画の解像度を上げることに取り組み、ビデオ補間手法はビデオ内のフレーム数を増やすことに焦点を当てます。

ビデオフレーム補間は、既存のフレーム間の動きを推定することにより、ビデオシーケンスに新しいフレームを追加するために使用されます。この技術は、スローモーションビデオ、フレームレート変換、ビデオ圧縮など、さまざまなアプリケーションで広く使用されています。生成されたビデオは通常、より楽しいものになります。

近年、ビデオフレーム補間に関する研究は大きな進歩を遂げています。彼らは中間フレームを非常に正確に生成し、楽しい視聴体験を提供することができます。

しかし、補間結果の品質を測定することは、長い間難しい課題でした。既存の手法では、補間結果の品質を測定するために市販のメトリックを使用することがほとんどです。ビデオフレーム補間の結果は通常、固有のアーティファクトがあり、既存の品質メトリックは、補間結果を測定する際に人間の知覚と一致しないことがあります。

一部の手法では、主観的なテストを行ってより正確な測定を行っていますが、それは時間がかかります。ユーザースタディを採用したわずかな手法を除いてはです。では、私たちのビデオ補間手法の品質を正確に測定するにはどうすればよいでしょうか?その質問に答える時が来ました。

ビデオ補間によって引き起こされる固有のアーティファクト。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

研究者のグループは、ビデオフレーム補間の結果を測定するための専用の知覚品質メトリックを提案しました。彼らはSwin Transformersに基づいたビデオ知覚品質評価のための新しいニューラルネットワークアーキテクチャを設計しました。

このネットワークは、オリジナルのビデオシーケンスからのフレームと補間フレームのペアを入力とし、2つのフレーム間の知覚的類似性を表すスコアを出力します。このようなネットワークを実現するための最初のステップは、データセットの準備であり、そこから彼らは始めました。彼らは大規模なビデオフレーム補間知覚類似性データセットを構築しました。このデータセットには、さまざまなビデオからのフレームのペアと、それらの知覚的類似性に関する人間の判断が含まれています。このデータセットは、L1とSSIMの目的メトリックの組み合わせを使用してネットワークをトレーニングするために使用されます。

提案されたネットワーク構造。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

L1ロスは、予測されたスコアと正解スコアの絶対差を測定します。一方、SSIMロスは2つの画像間の構造的類似性を測定します。これら2つのロスを組み合わせることで、ネットワークは正確で人間の知覚と一致するスコアを予測するように訓練されます。提案された手法の主な利点は、参照フレームに依存しないことです。そのため、通常はその情報を利用できないクライアントデバイス上で実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

なぜ包括的な画像セットが私たちにより良い製品作りを助けるのか

「私たちは、より包括的な製品を構築するために、株式画像会社であるTONLと協力して、より代表的なデータセットを作成しました」

データサイエンス

『Audio-LDMを使用してテキストを音声に変換する完全ガイド』

Audio-LDMモデルを使用して、テキストから音声生成の力を解き放つAIの力

人工知能

「AIを活用したポッドキャストの始め方と成長方法」

「誰でもポッドキャストを持っているように感じるかもしれませんが、ポッドキャストを始めることはまだ大きなチャンスです特...

人工知能

あなたが作るものはあなたそのものです:コードをより人間的にする方法

GitHubのクリスティーナ・エンチェヴタさんが、AIアプリケーションが私たちの価値観を反映していることや、建設的なフィード...

機械学習

「転移学習を探求しましょう...」(Ten'i gakushū o tankyū shimashou...)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指し...

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...