オフラインでのアクティブなポリシー選択

オフラインポリシー選択

強化学習(RL)は、最近では実際の問題に取り組むために非常に進歩を遂げており、オフラインRLによりさらに実用的になりました。環境との直接的な相互作用の代わりに、1つの事前に記録されたデータセットから多くのアルゴリズムを訓練することができます。しかし、手元のポリシーを評価する際には、オフラインRLのデータ効率の実用的な利点が失われます。

例えば、ロボットの操作装置を訓練する場合、ロボットのリソースは通常限られており、1つのデータセットでオフラインRLで多くのポリシーを訓練することは、オンラインRLと比較してデータ効率の利点をもたらします。各ポリシーの評価は高コストなプロセスであり、ロボットと何千回もの相互作用を必要とします。最適なアルゴリズム、ハイパーパラメータ、トレーニングステップ数を選択する際に、問題はすぐに扱いにくくなります。

ロボティクスなどの現実世界のアプリケーションにRLをより適用可能にするために、事前に記録されたデータセットを使用してポリシーを選択するための知的な評価手順であるアクティブオフラインポリシーセレクション(A-OPS)を提案します。A-OPSでは、事前に記録されたデータセットを活用し、現実の環境との限られた相互作用を使用して選択の品質を向上させます。

Active offline policy selection (A-OPS) selects the best policy out of a set of policies given a pre-recorded dataset and limited interaction with the environment.

実際の環境との相互作用を最小限に抑えるために、3つの主要な機能を実装しています:

  1. FQE(Fitted Q-evaluation)などのオフポリシー評価を使用することで、オフラインデータセットに基づいて各ポリシーのパフォーマンスについて初期の推測を行うことができます。これは、実世界のロボット工学を含む多くの環境で、グランドトゥルースのパフォーマンスとよく相関しています。
FQE scores are well aligned with the ground truth performance of policies trained in both sim2real and offline RL setups.

ポリシーのリターンは、ガウス過程を使用して共同モデル化されます。その観測値には、FQEスコアとロボットから収集された少数の新しいエピソードリターンが含まれます。1つのポリシーを評価すると、すべてのポリシーについての知識を得ることができます。なぜなら、ポリシーのペア間のカーネルを介してそれらの分布が相関していると仮定しているからです。カーネルは、ポリシーが似たようなアクション(例:ロボットのグリッパーを似たような方向に動かすなど)を取る場合、それらのポリシーは類似したリターンを持つ傾向があると仮定しています。

We useOPE scores and episodic returns to model latent policy performance as a Gaussian process.
Similarity between the policies is modelled through the distance between the actions these policies produce.
  1. よりデータ効率を向上させるために、ベイズ最適化を適用し、予測されたパフォーマンスが高く分散が大きい有望なポリシーを優先的に評価します。

私たちはdm-control、Atari、シミュレートされた環境、および実際のロボティクスなど、いくつかのドメインのいくつかの環境でこの手順を実証しました。A-OPSを使用すると、迅速に後悔を減らし、適度な数のポリシー評価で最適なポリシーを特定することができます。

In a real-world robotic experiment, A-OPS helps identify a very good policy faster than other baselines. To find a policy with close to zero regret out of 20 policies takes the same amount of time as it takes to evaluate two policies with current procedures.

私たちの結果は、オフラインデータ、特別なカーネル、およびベイズ最適化を利用して、環境との少数の相互作用だけで効果的なオフラインポリシーの選択が可能であることを示唆しています。A-OPSのコードはオープンソースで、GitHubで利用可能で、試すためのサンプルデータセットも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「教育者がAIを利用して巧みに活用する方法」

人工知能(AI)は迅速に様々な産業での大きな潜在能力を持つ強力なツールとして現れています医療から金融まで、AIは業務の変...

AIテクノロジー

デジタル変革によって打撃を受ける可能性が低い6つの産業

「急速な技術の進歩やデジタル変革が進む時代において、多くの産業がその業務の風景に根本的な変化を経験していますしかし、...

AIテクノロジー

効果的なマーケティングのためのポップアップビルダーのマスタリング

ポップアップビルダーソリューションは、マーケターの武器の一つとなっています戦略的な活用により、ブランドのエンゲージメ...

AIテクノロジー

「AIとオペレーション管理 - 天国での真のマッチング?」

現代のビジネスの風景では、人工知能(AI)とオペレーション管理の融合はもはや単なる可能性ではありません-それは現実ですこ...

AIテクノロジー

『AIのおそらく知られていないトップ4の活用法』

人工知能(AI)が今やその形成期に入っていることを考えると、10年未満でAIが何をもたらすかを想像するのは難しいです自律的...

AIテクノロジー

「AIとビジネス戦略:ポリッシングロボットを活用した競争上の優位性の確保」

画像の出典:Pexels AIとロボティクスの急速な進歩により、磨きロボットが急増していますこれらの機械は、最新のテクノロジー...