MuZeroの研究から現実世界への第一歩

'The first step from MuZero's research to the real world.'

YouTubeとの協力により、オープンソースのVP9コーデックにおけるビデオ圧縮の最適化を実現しています。

2016年には、囲碁という古代のゲームで人間に勝利する初の人工知能プログラムであるAlphaGoを紹介しました。その後継者であるAlphaZeroとその後のMuZeroは、一般的なアルゴリズムの追求において大きな進歩を遂げ、より少ない事前の知識で多くのゲームをマスターしました。たとえば、MuZeroはルールを教える必要なく、チェス、囲碁、将棋、アタリなどをマスターしました。しかし、これまでこれらのエージェントはゲーム解決に焦点を当ててきました。現在、DeepMindの知能解決のミッションを追求するため、MuZeroはYouTubeのビデオの最適化を通じて実世界のタスクのマスタリングに向けて最初のステップを踏み出しました。

arXivに掲載されたプレプリントでは、MuZeroがビデオ圧縮の改善にどのように貢献できるかを詳細に説明しています。アナリストは、2021年にはストリーミングビデオがインターネットトラフィックの大部分を占めると予測しています。COVID-19パンデミックでビデオが急増し、将来的にはインターネットトラフィックの総量が増加することを考えると、ビデオ圧縮はますます重要な課題となっており、Reinforcement Learning(RL)を適用して最先端の技術を改善する自然な領域です。YouTubeの一部のライブトラフィックで本番環境に導入して以来、多様なビデオにおいて平均4%のビットレート削減を実証しました。

ほとんどのオンラインビデオは、ビデオを圧縮またはエンコードし、インターネットを介して視聴者に送信し、再生のために解凍またはデコードするために、コーデックと呼ばれるプログラムに頼っています。これらのコーデックは、ビデオオンデマンド、ビデオ通話、ビデオゲーム、仮想現実など、インターネット上で現在可能な多くのビデオ体験を可能にするために多くの手法が組み込まれています。しかし、RLは特にコーデックのような連続的な決定問題に適しているため、RLで学習したアルゴリズムがどのように役立つかを探求しています。

当初の焦点は、YouTubeや他のストリーミングサービスで広く使用されているVP9コーデック(特にオープンソースバージョンのlibvpx)にあります。他のコーデックと同様に、VP9を使用するサービスプロバイダはビットレートについて考える必要があります。ビットレートは、ビデオの各フレームを送信するために必要な1と0の数を示します。ビットレートは、ビデオの読み込みにかかる時間、解像度、バッファリング、データ使用量など、サービスとストレージに必要な計算量と帯域幅に大きな影響を与えます。

ビデオのエンコード中、コーデックは過去のフレームからの情報を使用して将来のフレームに必要なビット数を削減します。

VP9では、ビットレートはレートコントロールモジュールの量子化パラメータ(QP)を介して最適化されます。各フレームに対して、このパラメータは適用する圧縮レベルを決定します。目標ビットレートに基づいて、ビデオフレームのQPは順次決定され、全体のビデオ品質を最大化するためのものです。直感的には、複雑なシーンにはより高いビットレート(より低いQP)が割り当てられ、静止したシーンにはより低いビットレート(より高いQP)が割り当てられるべきです。QP選択アルゴリズムは、ビデオフレームのQP値が他のビデオフレームのビットレート割り当てと全体のビデオ品質にどのように影響するかを推論します。RLはこのような連続的な決定問題を解決するのに特に役立ちます。

VP9によって処理されるビデオの各フレームに対して、MuZero-RCはVP9のデフォルトのレート制御メカニズムを置き換え、より低いビットレートで同様の品質を実現するための圧縮レベルを決定します。

MuZeroは、探索の力と環境のモデル化と計画立てる能力を組み合わせることで、さまざまなタスクで超人的なパフォーマンスを発揮します。これは特に大規模な組み合わせ行動空間でうまく機能し、ビデオ圧縮のレート制御の問題に対する理想的な解決策となります。ただし、MuZeroをこの実世界のアプリケーションで動作させるためには、完全に新しいビデオを含むYouTubeなどのプラットフォームにアップロードされるビデオの内容と品質が異なるため、新しい問題の解決が必要です。これに比べると、ボードゲームには一つの既知の環境があります。PSNR(ピーク信号対雑音比)やビットレート制約など、他の多くのメトリクスと制約が最終的なユーザーエクスペリエンスとビットレートの節約に影響を与えます。

MuZeroにおけるこれらの課題に対処するために、自己競争というメカニズムを作成しました。これにより、エージェントの現在のパフォーマンスを過去のパフォーマンスと比較することで、ビデオ圧縮の複雑な目標をWIN/LOSSの単純なシグナルに変換します。これにより、コーデックの要件をシンプルなシグナルに変換して、エージェントが最適化できるようにします。

prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.7% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.1% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 3.5% MuZero-RCを使用することで、各ビデオで同様の品質を実現しながら、必要なビットレートを削減することができます。大規模で多様なライブYouTubeビデオの平均ビットレート削減率は4%です。

ビデオエンコーディングのダイナミクスを学習し、ビットを最適に割り当てる方法を決定することで、MuZero Rate-Controller(MuZero-RC)は品質の低下なしにビットレートを削減することができます。QPの選択は、エンコーディングプロセスにおける数多くのエンコーディングの決定のうちの1つに過ぎません。数十年にわたる研究とエンジニアリングにより、効率的なアルゴリズムが開発されてきましたが、最適なレート-歪みトレードオフを得るためにこれらのエンコーディングの決定を自動的に学習する単一のアルゴリズムを想定しています。

ビデオ圧縮を超えて、MuZeroを研究環境以外の実際の問題の解決に応用するこの最初のステップは、私たちのRLエージェントが現実世界の問題を解決する方法の例として機能します。様々なコンピュータシステムを高速化し、負荷を軽減し、自動化するための新たな能力を備えたエージェントを作成することで、さまざまなドメインで製品を改善することができます。私たちの長期的なビジョンは、様々なドメインで数千の実世界システムを最適化することができる単一のアルゴリズムを開発することです。

Jackson BroshearとDavid SilverがHannah Fryと共にDeepMind: The Podcastのエピソード5でMuZeroについて話すのを聞いてください。お気に入りのポッドキャストアプリで「DeepMind: The Podcast」と検索して今すぐ聴くことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「NVIDIA H100 GPUがAWS Cloudで利用可能になりました」

AWSユーザーは、AIトレーニングおよび推論の業界ベンチマークで示された最先端のパフォーマンスにアクセスできるようになりま...

機械学習

2023年のコード生成/コーディングにおけるトップな生成AIツール

生成型AI技術の急速な進歩により、コード生成アプリケーションへの関心と進展が高まっています。これらの技術は、機械学習ア...

AI研究

細菌注入システムは、マウスおよび人間細胞内にタンパク質を送達する

さらに開発を進めれば、プログラマブルシステムは遺伝子療法やがん治療を含む様々なアプリケーションに使用できるようになります

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...

機械学習

このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマン...

機械学習

「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階の...