MuZeroの研究から現実世界への第一歩

'The first step from MuZero's research to the real world.'

YouTubeとの協力により、オープンソースのVP9コーデックにおけるビデオ圧縮の最適化を実現しています。

2016年には、囲碁という古代のゲームで人間に勝利する初の人工知能プログラムであるAlphaGoを紹介しました。その後継者であるAlphaZeroとその後のMuZeroは、一般的なアルゴリズムの追求において大きな進歩を遂げ、より少ない事前の知識で多くのゲームをマスターしました。たとえば、MuZeroはルールを教える必要なく、チェス、囲碁、将棋、アタリなどをマスターしました。しかし、これまでこれらのエージェントはゲーム解決に焦点を当ててきました。現在、DeepMindの知能解決のミッションを追求するため、MuZeroはYouTubeのビデオの最適化を通じて実世界のタスクのマスタリングに向けて最初のステップを踏み出しました。

arXivに掲載されたプレプリントでは、MuZeroがビデオ圧縮の改善にどのように貢献できるかを詳細に説明しています。アナリストは、2021年にはストリーミングビデオがインターネットトラフィックの大部分を占めると予測しています。COVID-19パンデミックでビデオが急増し、将来的にはインターネットトラフィックの総量が増加することを考えると、ビデオ圧縮はますます重要な課題となっており、Reinforcement Learning(RL)を適用して最先端の技術を改善する自然な領域です。YouTubeの一部のライブトラフィックで本番環境に導入して以来、多様なビデオにおいて平均4%のビットレート削減を実証しました。

ほとんどのオンラインビデオは、ビデオを圧縮またはエンコードし、インターネットを介して視聴者に送信し、再生のために解凍またはデコードするために、コーデックと呼ばれるプログラムに頼っています。これらのコーデックは、ビデオオンデマンド、ビデオ通話、ビデオゲーム、仮想現実など、インターネット上で現在可能な多くのビデオ体験を可能にするために多くの手法が組み込まれています。しかし、RLは特にコーデックのような連続的な決定問題に適しているため、RLで学習したアルゴリズムがどのように役立つかを探求しています。

当初の焦点は、YouTubeや他のストリーミングサービスで広く使用されているVP9コーデック(特にオープンソースバージョンのlibvpx)にあります。他のコーデックと同様に、VP9を使用するサービスプロバイダはビットレートについて考える必要があります。ビットレートは、ビデオの各フレームを送信するために必要な1と0の数を示します。ビットレートは、ビデオの読み込みにかかる時間、解像度、バッファリング、データ使用量など、サービスとストレージに必要な計算量と帯域幅に大きな影響を与えます。

ビデオのエンコード中、コーデックは過去のフレームからの情報を使用して将来のフレームに必要なビット数を削減します。

VP9では、ビットレートはレートコントロールモジュールの量子化パラメータ(QP)を介して最適化されます。各フレームに対して、このパラメータは適用する圧縮レベルを決定します。目標ビットレートに基づいて、ビデオフレームのQPは順次決定され、全体のビデオ品質を最大化するためのものです。直感的には、複雑なシーンにはより高いビットレート(より低いQP)が割り当てられ、静止したシーンにはより低いビットレート(より高いQP)が割り当てられるべきです。QP選択アルゴリズムは、ビデオフレームのQP値が他のビデオフレームのビットレート割り当てと全体のビデオ品質にどのように影響するかを推論します。RLはこのような連続的な決定問題を解決するのに特に役立ちます。

VP9によって処理されるビデオの各フレームに対して、MuZero-RCはVP9のデフォルトのレート制御メカニズムを置き換え、より低いビットレートで同様の品質を実現するための圧縮レベルを決定します。

MuZeroは、探索の力と環境のモデル化と計画立てる能力を組み合わせることで、さまざまなタスクで超人的なパフォーマンスを発揮します。これは特に大規模な組み合わせ行動空間でうまく機能し、ビデオ圧縮のレート制御の問題に対する理想的な解決策となります。ただし、MuZeroをこの実世界のアプリケーションで動作させるためには、完全に新しいビデオを含むYouTubeなどのプラットフォームにアップロードされるビデオの内容と品質が異なるため、新しい問題の解決が必要です。これに比べると、ボードゲームには一つの既知の環境があります。PSNR(ピーク信号対雑音比)やビットレート制約など、他の多くのメトリクスと制約が最終的なユーザーエクスペリエンスとビットレートの節約に影響を与えます。

MuZeroにおけるこれらの課題に対処するために、自己競争というメカニズムを作成しました。これにより、エージェントの現在のパフォーマンスを過去のパフォーマンスと比較することで、ビデオ圧縮の複雑な目標をWIN/LOSSの単純なシグナルに変換します。これにより、コーデックの要件をシンプルなシグナルに変換して、エージェントが最適化できるようにします。

prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.7% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 4.1% prior QPヒューリスティックスでエンコードされたビデオ MuZero-RCでエンコードされたビデオ ビットレート削減率 3.5% MuZero-RCを使用することで、各ビデオで同様の品質を実現しながら、必要なビットレートを削減することができます。大規模で多様なライブYouTubeビデオの平均ビットレート削減率は4%です。

ビデオエンコーディングのダイナミクスを学習し、ビットを最適に割り当てる方法を決定することで、MuZero Rate-Controller(MuZero-RC)は品質の低下なしにビットレートを削減することができます。QPの選択は、エンコーディングプロセスにおける数多くのエンコーディングの決定のうちの1つに過ぎません。数十年にわたる研究とエンジニアリングにより、効率的なアルゴリズムが開発されてきましたが、最適なレート-歪みトレードオフを得るためにこれらのエンコーディングの決定を自動的に学習する単一のアルゴリズムを想定しています。

ビデオ圧縮を超えて、MuZeroを研究環境以外の実際の問題の解決に応用するこの最初のステップは、私たちのRLエージェントが現実世界の問題を解決する方法の例として機能します。様々なコンピュータシステムを高速化し、負荷を軽減し、自動化するための新たな能力を備えたエージェントを作成することで、さまざまなドメインで製品を改善することができます。私たちの長期的なビジョンは、様々なドメインで数千の実世界システムを最適化することができる単一のアルゴリズムを開発することです。

Jackson BroshearとDavid SilverがHannah Fryと共にDeepMind: The Podcastのエピソード5でMuZeroについて話すのを聞いてください。お気に入りのポッドキャストアプリで「DeepMind: The Podcast」と検索して今すぐ聴くことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「Langchainの使い方:ステップバイステップガイド」

LangChain(ラングチェーン)は、プログラマーが大きな言語モデルを使用してアプリケーションを開発するための人工知能フレー...

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...

機械学習

このAIペーパーは、さまざまなタスクでChatGPTに追いついたり超えたりすると主張するオープンソースの大規模言語モデルの詳細なレビューを公開しています

昨年のChatGPTのリリースは、人工知能コミュニティを驚かせました。最新の大規模言語モデルであるGPTのトランスフォーマーア...

人工知能

デジタルアーティストのスティーブン・タンが、今週の「NVIDIA Studio」でソフィッシュティケイテッドなスタイルを披露します

エディターの注:この記事は、週刊のIn the NVIDIA Studio シリーズの一部であり、注目のアーティストを紹介し、クリエイティ...

AI研究

自動化された欺瞞検出:東京大学の研究者が機械学習を通じて表情と脈拍を利用して欺瞞を暴く

デジタル時代において、自動化された欺瞞検知システムは、様々な分野で重要な存在となっています。正確な検知の需要は、商業...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...