メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

This AI method proposes perceptual quality metrics for video frame interpolation.

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 30FPSよりも非常に満足感があります。前者は、まるでそれを目撃しているかのように、コンテンツに没頭させます。しかし、このコンテンツを楽しむことができる人は皆んなではありません。4K 60FPSの動画1分のデータコストは、1080P 30FPSのデータコストの約6倍もかかります。多くのユーザーにはアクセスできないのです。

しかし、配信される動画の解像度と/またはフレームレートを上げることで、この問題に対処することが可能です。スーパーレゾリューション手法は、動画の解像度を上げることに取り組み、ビデオ補間手法はビデオ内のフレーム数を増やすことに焦点を当てます。

ビデオフレーム補間は、既存のフレーム間の動きを推定することにより、ビデオシーケンスに新しいフレームを追加するために使用されます。この技術は、スローモーションビデオ、フレームレート変換、ビデオ圧縮など、さまざまなアプリケーションで広く使用されています。生成されたビデオは通常、より楽しいものになります。

近年、ビデオフレーム補間に関する研究は大きな進歩を遂げています。彼らは中間フレームを非常に正確に生成し、楽しい視聴体験を提供することができます。

しかし、補間結果の品質を測定することは、長い間難しい課題でした。既存の手法では、補間結果の品質を測定するために市販のメトリックを使用することがほとんどです。ビデオフレーム補間の結果は通常、固有のアーティファクトがあり、既存の品質メトリックは、補間結果を測定する際に人間の知覚と一致しないことがあります。

一部の手法では、主観的なテストを行ってより正確な測定を行っていますが、それは時間がかかります。ユーザースタディを採用したわずかな手法を除いてはです。では、私たちのビデオ補間手法の品質を正確に測定するにはどうすればよいでしょうか?その質問に答える時が来ました。

ビデオ補間によって引き起こされる固有のアーティファクト。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

研究者のグループは、ビデオフレーム補間の結果を測定するための専用の知覚品質メトリックを提案しました。彼らはSwin Transformersに基づいたビデオ知覚品質評価のための新しいニューラルネットワークアーキテクチャを設計しました。

このネットワークは、オリジナルのビデオシーケンスからのフレームと補間フレームのペアを入力とし、2つのフレーム間の知覚的類似性を表すスコアを出力します。このようなネットワークを実現するための最初のステップは、データセットの準備であり、そこから彼らは始めました。彼らは大規模なビデオフレーム補間知覚類似性データセットを構築しました。このデータセットには、さまざまなビデオからのフレームのペアと、それらの知覚的類似性に関する人間の判断が含まれています。このデータセットは、L1とSSIMの目的メトリックの組み合わせを使用してネットワークをトレーニングするために使用されます。

提案されたネットワーク構造。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

L1ロスは、予測されたスコアと正解スコアの絶対差を測定します。一方、SSIMロスは2つの画像間の構造的類似性を測定します。これら2つのロスを組み合わせることで、ネットワークは正確で人間の知覚と一致するスコアを予測するように訓練されます。提案された手法の主な利点は、参照フレームに依存しないことです。そのため、通常はその情報を利用できないクライアントデバイス上で実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ロボットが「グリップ」のアップグレードを取得:AO-Graspがロボットに物を落とさない技術を教えます!

近年、ロボットは製造業から医療まで、様々な産業でますます使用されています。しかし、彼らのタスクを遂行する効果は、環境...

AIニュース

「GoogleのBARDは、YouTubeの動画について「視聴して質問に回答」できるようになりました」

YouTube動画を探し続けるのにうんざりしていませんか?GoogleのBard AIは、ビデオコンテンツとの対話方法を革新する機能を導...

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...

機械学習

最速の道 AIを使用して手術室でがん細胞を分析するヘルスケアスタートアップ

医療機器会社のInvenio Imagingは、手術室で組織生検を評価することができる技術を開発しており、サンプル採取後すぐに、病理...

人工知能

「両方の世界のベスト:人間の開発者とAIの協力者」

「これは、開発者を対象とした生成型AI生産性ツール(例:Github Copilot、ChatGPT、Amazon CodeWhisperer)が構造にどのよう...

人工知能

ChatGPTでリードマグネットのアイデアをブレインストームする

バリューパックされたリードマグネットのアイデアを考えるのに苦労している場合、ChatGPTは素晴らしいブレインストーミングツ...