RLアンプラグド:オフライン強化学習のベンチマーク

RLアンプラグド:オフライン強化学習のベンチマーク

RLの成功の多くは、エージェントと環境の間の繰り返しのオンライン相互作用に大きく依存しています。これをオンラインRLと呼びます。シミュレーションでは成功しているにもかかわらず、RLの実世界への適用は限定的であり、発電所、ロボット、医療システム、または自動運転車などは稼働コストが高く、不適切な制御は危険な結果をもたらします。これらのシステムはRLの探索の重要なアイデアやオンラインRLアルゴリズムのデータ要件とは簡単には互換性がありません。それにもかかわらず、ほとんどの実世界のシステムは、通常の運用の一環として大量のデータを生成し、オフラインRLの目標は、環境との相互作用なしで直接そのログデータからポリシーを学習することです。

オフラインRLの手法(例:Agarwal et al.、2020; Fujimoto et al.、2018)は、よく知られたベンチマークドメインで有望な結果を示しています。しかし、非標準化の評価プロトコル、異なるデータセット、およびベースラインの不足により、アルゴリズムの比較が困難になっています。それにもかかわらず、部分観測、高次元のセンサーストリーム(例:画像)、多様な行動空間、探索問題、非定常性、および確率性など、潜在的な実世界のアプリケーションドメインの重要な特性は、現在のオフラインRLの文献では不十分に表現されています。

[GIF + キャプションを挿入]

私たちは、タスクドメインと関連するデータセットの新しいコレクションと明確な評価プロトコルを紹介します。DM Control Suite(Tassa et al.、2018)やAtari 2600ゲーム(Bellemare et al.、2013)などの広く使用されているドメインだけでなく、強力なオンラインRLアルゴリズムにとってまだ挑戦的な実世界のRL(RWRL)スイートタスク(Dulac-Arnold et al.、2020)やDM Locomotionタスク(Heess et al.、2017; Merel et al.、2019a,b, 2020)などのドメインも含まれています。環境、データセット、および評価プロトコルを標準化することで、オフラインRLの研究を再現可能でアクセス可能にすることを目指しています。私たちは、私たちのベンチマークスイートを「RL Unplugged」と呼びます。なぜなら、オフラインRLの手法は、環境との相互作用なしにそれを使用できるからです。私たちの論文は、次の4つの主な貢献を提供しています:(i)データセットのための統一されたAPI、(ii)さまざまな環境、(iii)オフラインRL研究のための明確な評価プロトコル、および(iv)参照パフォーマンスベースライン。

オフライン強化学習のためのRL Unplugged:ベンチマーク

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「機械学習入門:その多様な形式を探索する」

最近、機械学習はどこにでもありますねもしもあなたがここにいるなら、機械学習が一体何なのかに興味を持ったのかもしれませ...

機械学習

ID対マルチモーダル推奨システム:転移学習の視点

この記事は、移転可能な推薦システムの開発状況と代表的な作業(IDベース、モダリティベース、および大規模言語モデルベース...

データサイエンス

「ワードエンベディング:より良い回答のためにチャットボットに文脈を与える」

ワードエンベディングとChatGPTを使用してエキスパートボットを構築する方法を学びましょうワードベクトルの力を活用して、チ...

データサイエンス

「V-Net、イメージセグメンテーションにおけるU-Netの兄貴」

イメージセグメンテーションと医療画像のためのV-Net、U-Netの兄弟分についてのレビューと紹介データサイエンティストや医療...

AI研究

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル(LLMs)を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して...

機械学習

AIによる生産性向上 生成AIが様々な産業において効率の新たな時代を開く

2022年11月22日、ほとんど仮想的な瞬間が訪れ、それは地球上のほぼすべての産業の基盤を揺るがしました。 その日、OpenAIは史...