メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

This AI method proposes perceptual quality metrics for video frame interpolation.

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 30FPSよりも非常に満足感があります。前者は、まるでそれを目撃しているかのように、コンテンツに没頭させます。しかし、このコンテンツを楽しむことができる人は皆んなではありません。4K 60FPSの動画1分のデータコストは、1080P 30FPSのデータコストの約6倍もかかります。多くのユーザーにはアクセスできないのです。

しかし、配信される動画の解像度と/またはフレームレートを上げることで、この問題に対処することが可能です。スーパーレゾリューション手法は、動画の解像度を上げることに取り組み、ビデオ補間手法はビデオ内のフレーム数を増やすことに焦点を当てます。

ビデオフレーム補間は、既存のフレーム間の動きを推定することにより、ビデオシーケンスに新しいフレームを追加するために使用されます。この技術は、スローモーションビデオ、フレームレート変換、ビデオ圧縮など、さまざまなアプリケーションで広く使用されています。生成されたビデオは通常、より楽しいものになります。

近年、ビデオフレーム補間に関する研究は大きな進歩を遂げています。彼らは中間フレームを非常に正確に生成し、楽しい視聴体験を提供することができます。

しかし、補間結果の品質を測定することは、長い間難しい課題でした。既存の手法では、補間結果の品質を測定するために市販のメトリックを使用することがほとんどです。ビデオフレーム補間の結果は通常、固有のアーティファクトがあり、既存の品質メトリックは、補間結果を測定する際に人間の知覚と一致しないことがあります。

一部の手法では、主観的なテストを行ってより正確な測定を行っていますが、それは時間がかかります。ユーザースタディを採用したわずかな手法を除いてはです。では、私たちのビデオ補間手法の品質を正確に測定するにはどうすればよいでしょうか?その質問に答える時が来ました。

ビデオ補間によって引き起こされる固有のアーティファクト。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

研究者のグループは、ビデオフレーム補間の結果を測定するための専用の知覚品質メトリックを提案しました。彼らはSwin Transformersに基づいたビデオ知覚品質評価のための新しいニューラルネットワークアーキテクチャを設計しました。

このネットワークは、オリジナルのビデオシーケンスからのフレームと補間フレームのペアを入力とし、2つのフレーム間の知覚的類似性を表すスコアを出力します。このようなネットワークを実現するための最初のステップは、データセットの準備であり、そこから彼らは始めました。彼らは大規模なビデオフレーム補間知覚類似性データセットを構築しました。このデータセットには、さまざまなビデオからのフレームのペアと、それらの知覚的類似性に関する人間の判断が含まれています。このデータセットは、L1とSSIMの目的メトリックの組み合わせを使用してネットワークをトレーニングするために使用されます。

提案されたネットワーク構造。出典:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

L1ロスは、予測されたスコアと正解スコアの絶対差を測定します。一方、SSIMロスは2つの画像間の構造的類似性を測定します。これら2つのロスを組み合わせることで、ネットワークは正確で人間の知覚と一致するスコアを予測するように訓練されます。提案された手法の主な利点は、参照フレームに依存しないことです。そのため、通常はその情報を利用できないクライアントデバイス上で実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

KubernetesでのGenAIアプリケーションの展開:ステップバイステップガイド

このガイドは、高い可用性のためにKubernetes上でGenAIアプリケーションを展開するための包括的で詳細な手順を提供します

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

AIニュース

「DALL-E3」を詳しく見てみる

詳細な記事でOpenAIのDALL-E 3の進歩について探求しましょうさまざまなプロンプトでAIをテストし、ChatGPTとの高度な統合、優...

データサイエンス

「確信せよ、ただし検証せよ」

非決定的なソフトウェアの開発、テスト、および監視の課題を理解することこれは、可観測性のための新しいかつ重要な課題です ...

AIニュース

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...