RLアンプラグド:オフライン強化学習のベンチマーク

RLアンプラグド:オフライン強化学習のベンチマーク

RLの成功の多くは、エージェントと環境の間の繰り返しのオンライン相互作用に大きく依存しています。これをオンラインRLと呼びます。シミュレーションでは成功しているにもかかわらず、RLの実世界への適用は限定的であり、発電所、ロボット、医療システム、または自動運転車などは稼働コストが高く、不適切な制御は危険な結果をもたらします。これらのシステムはRLの探索の重要なアイデアやオンラインRLアルゴリズムのデータ要件とは簡単には互換性がありません。それにもかかわらず、ほとんどの実世界のシステムは、通常の運用の一環として大量のデータを生成し、オフラインRLの目標は、環境との相互作用なしで直接そのログデータからポリシーを学習することです。

オフラインRLの手法(例:Agarwal et al.、2020; Fujimoto et al.、2018)は、よく知られたベンチマークドメインで有望な結果を示しています。しかし、非標準化の評価プロトコル、異なるデータセット、およびベースラインの不足により、アルゴリズムの比較が困難になっています。それにもかかわらず、部分観測、高次元のセンサーストリーム(例:画像)、多様な行動空間、探索問題、非定常性、および確率性など、潜在的な実世界のアプリケーションドメインの重要な特性は、現在のオフラインRLの文献では不十分に表現されています。

[GIF + キャプションを挿入]

私たちは、タスクドメインと関連するデータセットの新しいコレクションと明確な評価プロトコルを紹介します。DM Control Suite(Tassa et al.、2018)やAtari 2600ゲーム(Bellemare et al.、2013)などの広く使用されているドメインだけでなく、強力なオンラインRLアルゴリズムにとってまだ挑戦的な実世界のRL(RWRL)スイートタスク(Dulac-Arnold et al.、2020)やDM Locomotionタスク(Heess et al.、2017; Merel et al.、2019a,b, 2020)などのドメインも含まれています。環境、データセット、および評価プロトコルを標準化することで、オフラインRLの研究を再現可能でアクセス可能にすることを目指しています。私たちは、私たちのベンチマークスイートを「RL Unplugged」と呼びます。なぜなら、オフラインRLの手法は、環境との相互作用なしにそれを使用できるからです。私たちの論文は、次の4つの主な貢献を提供しています:(i)データセットのための統一されたAPI、(ii)さまざまな環境、(iii)オフラインRL研究のための明確な評価プロトコル、および(iv)参照パフォーマンスベースライン。

オフライン強化学習のためのRL Unplugged:ベンチマーク

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『GPT-4を使用したパーソナライズされたAIトレーディングコンサルタントの構築』

はじめに 近年、人工知能(AI)を株式取引に統合することで、投資家の意思決定に革命が起きています。GPT-3やGPT-4などの大規...

データサイエンス

「LLMsが幻覚を見るのを止めることはできますか?」

ほぼすべての人々の注目を集めている大規模言語モデル(LLM)ですが、このような技術の広範な展開は、それに関連するやや厄介...

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

人工知能

Rows AI:エクセルスプレッドシートの終焉か?

Rows AIは、非常に複雑なデータ分析のための信じられないほどのスプレッドシートを数分で構築することができます

データサイエンス

自然言語処理のタクソノミー

「異なる研究分野と最近の自然言語処理(NLP)の進展の概要」

AIニュース

患者のケアを革新するAI技術

国民保健サービス(NHS)にとって重要な進展がありました。Henry Smith MPは、政府が2,100万ポンドの資金を投じて、最新の人...