MuZeroの研究から現実世界への第一歩
'The first step from MuZero's research to the real world.'
YouTubeとの協力により、オープンソースのVP9コーデックにおけるビデオ圧縮の最適化を実現しています。
2016年には、囲碁という古代のゲームで人間に勝利する初の人工知能プログラムであるAlphaGoを紹介しました。その後継者であるAlphaZeroとその後のMuZeroは、一般的なアルゴリズムの追求において大きな進歩を遂げ、より少ない事前の知識で多くのゲームをマスターしました。たとえば、MuZeroはルールを教える必要なく、チェス、囲碁、将棋、アタリなどをマスターしました。しかし、これまでこれらのエージェントはゲーム解決に焦点を当ててきました。現在、DeepMindの知能解決のミッションを追求するため、MuZeroはYouTubeのビデオの最適化を通じて実世界のタスクのマスタリングに向けて最初のステップを踏み出しました。
arXivに掲載されたプレプリントでは、MuZeroがビデオ圧縮の改善にどのように貢献できるかを詳細に説明しています。アナリストは、2021年にはストリーミングビデオがインターネットトラフィックの大部分を占めると予測しています。COVID-19パンデミックでビデオが急増し、将来的にはインターネットトラフィックの総量が増加することを考えると、ビデオ圧縮はますます重要な課題となっており、Reinforcement Learning(RL)を適用して最先端の技術を改善する自然な領域です。YouTubeの一部のライブトラフィックで本番環境に導入して以来、多様なビデオにおいて平均4%のビットレート削減を実証しました。
ほとんどのオンラインビデオは、ビデオを圧縮またはエンコードし、インターネットを介して視聴者に送信し、再生のために解凍またはデコードするために、コーデックと呼ばれるプログラムに頼っています。これらのコーデックは、ビデオオンデマンド、ビデオ通話、ビデオゲーム、仮想現実など、インターネット上で現在可能な多くのビデオ体験を可能にするために多くの手法が組み込まれています。しかし、RLは特にコーデックのような連続的な決定問題に適しているため、RLで学習したアルゴリズムがどのように役立つかを探求しています。
当初の焦点は、YouTubeや他のストリーミングサービスで広く使用されているVP9コーデック(特にオープンソースバージョンのlibvpx)にあります。他のコーデックと同様に、VP9を使用するサービスプロバイダはビットレートについて考える必要があります。ビットレートは、ビデオの各フレームを送信するために必要な1と0の数を示します。ビットレートは、ビデオの読み込みにかかる時間、解像度、バッファリング、データ使用量など、サービスとストレージに必要な計算量と帯域幅に大きな影響を与えます。
VP9では、ビットレートはレートコントロールモジュールの量子化パラメータ(QP)を介して最適化されます。各フレームに対して、このパラメータは適用する圧縮レベルを決定します。目標ビットレートに基づいて、ビデオフレームのQPは順次決定され、全体のビデオ品質を最大化するためのものです。直感的には、複雑なシーンにはより高いビットレート(より低いQP)が割り当てられ、静止したシーンにはより低いビットレート(より高いQP)が割り当てられるべきです。QP選択アルゴリズムは、ビデオフレームのQP値が他のビデオフレームのビットレート割り当てと全体のビデオ品質にどのように影響するかを推論します。RLはこのような連続的な決定問題を解決するのに特に役立ちます。
MuZeroは、探索の力と環境のモデル化と計画立てる能力を組み合わせることで、さまざまなタスクで超人的なパフォーマンスを発揮します。これは特に大規模な組み合わせ行動空間でうまく機能し、ビデオ圧縮のレート制御の問題に対する理想的な解決策となります。ただし、MuZeroをこの実世界のアプリケーションで動作させるためには、完全に新しいビデオを含むYouTubeなどのプラットフォームにアップロードされるビデオの内容と品質が異なるため、新しい問題の解決が必要です。これに比べると、ボードゲームには一つの既知の環境があります。PSNR(ピーク信号対雑音比)やビットレート制約など、他の多くのメトリクスと制約が最終的なユーザーエクスペリエンスとビットレートの節約に影響を与えます。
MuZeroにおけるこれらの課題に対処するために、自己競争というメカニズムを作成しました。これにより、エージェントの現在のパフォーマンスを過去のパフォーマンスと比較することで、ビデオ圧縮の複雑な目標をWIN/LOSSの単純なシグナルに変換します。これにより、コーデックの要件をシンプルなシグナルに変換して、エージェントが最適化できるようにします。
prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.7% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.1% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 3.5% MuZero-RCを使用することで、各ビデオで同様の品質を実現しながら、必要なビットレートを削減することができます。大規模で多様なライブYouTubeビデオの平均ビットレート削減率は4%です。
ビデオエンコーディングのダイナミクスを学習し、ビットを最適に割り当てる方法を決定することで、MuZero Rate-Controller(MuZero-RC)は品質の低下なしにビットレートを削減することができます。QPの選択は、エンコーディングプロセスにおける数多くのエンコーディングの決定のうちの1つに過ぎません。数十年にわたる研究とエンジニアリングにより、効率的なアルゴリズムが開発されてきましたが、最適なレート-歪みトレードオフを得るためにこれらのエンコーディングの決定を自動的に学習する単一のアルゴリズムを想定しています。
ビデオ圧縮を超えて、MuZeroを研究環境以外の実際の問題の解決に応用するこの最初のステップは、私たちのRLエージェントが現実世界の問題を解決する方法の例として機能します。様々なコンピュータシステムを高速化し、負荷を軽減し、自動化するための新たな能力を備えたエージェントを作成することで、さまざまなドメインで製品を改善することができます。私たちの長期的なビジョンは、様々なドメインで数千の実世界システムを最適化することができる単一のアルゴリズムを開発することです。
Jackson BroshearとDavid SilverがHannah Fryと共にDeepMind: The Podcastのエピソード5でMuZeroについて話すのを聞いてください。お気に入りのポッドキャストアプリで「DeepMind: The Podcast」と検索して今すぐ聴くことができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles