オフラインでのアクティブなポリシー選択

オフラインポリシー選択

強化学習(RL)は、最近では実際の問題に取り組むために非常に進歩を遂げており、オフラインRLによりさらに実用的になりました。環境との直接的な相互作用の代わりに、1つの事前に記録されたデータセットから多くのアルゴリズムを訓練することができます。しかし、手元のポリシーを評価する際には、オフラインRLのデータ効率の実用的な利点が失われます。

例えば、ロボットの操作装置を訓練する場合、ロボットのリソースは通常限られており、1つのデータセットでオフラインRLで多くのポリシーを訓練することは、オンラインRLと比較してデータ効率の利点をもたらします。各ポリシーの評価は高コストなプロセスであり、ロボットと何千回もの相互作用を必要とします。最適なアルゴリズム、ハイパーパラメータ、トレーニングステップ数を選択する際に、問題はすぐに扱いにくくなります。

ロボティクスなどの現実世界のアプリケーションにRLをより適用可能にするために、事前に記録されたデータセットを使用してポリシーを選択するための知的な評価手順であるアクティブオフラインポリシーセレクション(A-OPS)を提案します。A-OPSでは、事前に記録されたデータセットを活用し、現実の環境との限られた相互作用を使用して選択の品質を向上させます。

Active offline policy selection (A-OPS) selects the best policy out of a set of policies given a pre-recorded dataset and limited interaction with the environment.

実際の環境との相互作用を最小限に抑えるために、3つの主要な機能を実装しています:

  1. FQE(Fitted Q-evaluation)などのオフポリシー評価を使用することで、オフラインデータセットに基づいて各ポリシーのパフォーマンスについて初期の推測を行うことができます。これは、実世界のロボット工学を含む多くの環境で、グランドトゥルースのパフォーマンスとよく相関しています。
FQE scores are well aligned with the ground truth performance of policies trained in both sim2real and offline RL setups.

ポリシーのリターンは、ガウス過程を使用して共同モデル化されます。その観測値には、FQEスコアとロボットから収集された少数の新しいエピソードリターンが含まれます。1つのポリシーを評価すると、すべてのポリシーについての知識を得ることができます。なぜなら、ポリシーのペア間のカーネルを介してそれらの分布が相関していると仮定しているからです。カーネルは、ポリシーが似たようなアクション(例:ロボットのグリッパーを似たような方向に動かすなど)を取る場合、それらのポリシーは類似したリターンを持つ傾向があると仮定しています。

We useOPE scores and episodic returns to model latent policy performance as a Gaussian process.
Similarity between the policies is modelled through the distance between the actions these policies produce.
  1. よりデータ効率を向上させるために、ベイズ最適化を適用し、予測されたパフォーマンスが高く分散が大きい有望なポリシーを優先的に評価します。

私たちはdm-control、Atari、シミュレートされた環境、および実際のロボティクスなど、いくつかのドメインのいくつかの環境でこの手順を実証しました。A-OPSを使用すると、迅速に後悔を減らし、適度な数のポリシー評価で最適なポリシーを特定することができます。

In a real-world robotic experiment, A-OPS helps identify a very good policy faster than other baselines. To find a policy with close to zero regret out of 20 policies takes the same amount of time as it takes to evaluate two policies with current procedures.

私たちの結果は、オフラインデータ、特別なカーネル、およびベイズ最適化を利用して、環境との少数の相互作用だけで効果的なオフラインポリシーの選択が可能であることを示唆しています。A-OPSのコードはオープンソースで、GitHubで利用可能で、試すためのサンプルデータセットも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

マーケティングキャンペーンを改善する革新的なテクノロジートレンド

最新のマーケティング技術のトレンドを学び、それらがより良い結果をもたらす方法を学びましょうマーケティングキャンペーン...

AIテクノロジー

「AIが医療におけるケースの結果を向上させるのに役立っている方法」

人工知能(AI)は、多くの産業において変革の力として現れており、医療業界も例外ではありません機械学習とデータ分析の進歩...

AIニュース

慈善家のジェームズ・ドゥーリー氏がユニプレイ・マーキングに投資

イギリスに拠点を置く起業家兼投資家のジェームズ・ドゥーリー氏が、Uniplayという新しいビジネスベンチャーに投資しましたUn...

AIテクノロジー

『PDFを扱うための4つのAIツール - ボーナスツールもあり』

「情報を探し求めるためにPDFドキュメントの山をひたすら漁っていることはありませんか?私たちは、これがあなたが認めたくな...

機械学習

「機械学習の未来:新興トレンドと機会」

「機械学習は、産業全体において転換力として浮上しており、問題解決や意思決定のアプローチを革新していますその影響は広範...

AIテクノロジー

小売業の革新:AIが顧客体験、在庫管理、マーケティングに与える影響

人工知能が小売業界に革命を起こし、マーケティング戦略を向上させ、在庫管理を効率化し、顧客の体験を向上させている方法を...