オフラインでのアクティブなポリシー選択

オフラインポリシー選択

強化学習(RL)は、最近では実際の問題に取り組むために非常に進歩を遂げており、オフラインRLによりさらに実用的になりました。環境との直接的な相互作用の代わりに、1つの事前に記録されたデータセットから多くのアルゴリズムを訓練することができます。しかし、手元のポリシーを評価する際には、オフラインRLのデータ効率の実用的な利点が失われます。

例えば、ロボットの操作装置を訓練する場合、ロボットのリソースは通常限られており、1つのデータセットでオフラインRLで多くのポリシーを訓練することは、オンラインRLと比較してデータ効率の利点をもたらします。各ポリシーの評価は高コストなプロセスであり、ロボットと何千回もの相互作用を必要とします。最適なアルゴリズム、ハイパーパラメータ、トレーニングステップ数を選択する際に、問題はすぐに扱いにくくなります。

ロボティクスなどの現実世界のアプリケーションにRLをより適用可能にするために、事前に記録されたデータセットを使用してポリシーを選択するための知的な評価手順であるアクティブオフラインポリシーセレクション(A-OPS)を提案します。A-OPSでは、事前に記録されたデータセットを活用し、現実の環境との限られた相互作用を使用して選択の品質を向上させます。

Active offline policy selection (A-OPS) selects the best policy out of a set of policies given a pre-recorded dataset and limited interaction with the environment.

実際の環境との相互作用を最小限に抑えるために、3つの主要な機能を実装しています:

  1. FQE(Fitted Q-evaluation)などのオフポリシー評価を使用することで、オフラインデータセットに基づいて各ポリシーのパフォーマンスについて初期の推測を行うことができます。これは、実世界のロボット工学を含む多くの環境で、グランドトゥルースのパフォーマンスとよく相関しています。
FQE scores are well aligned with the ground truth performance of policies trained in both sim2real and offline RL setups.

ポリシーのリターンは、ガウス過程を使用して共同モデル化されます。その観測値には、FQEスコアとロボットから収集された少数の新しいエピソードリターンが含まれます。1つのポリシーを評価すると、すべてのポリシーについての知識を得ることができます。なぜなら、ポリシーのペア間のカーネルを介してそれらの分布が相関していると仮定しているからです。カーネルは、ポリシーが似たようなアクション(例:ロボットのグリッパーを似たような方向に動かすなど)を取る場合、それらのポリシーは類似したリターンを持つ傾向があると仮定しています。

We useOPE scores and episodic returns to model latent policy performance as a Gaussian process.
Similarity between the policies is modelled through the distance between the actions these policies produce.
  1. よりデータ効率を向上させるために、ベイズ最適化を適用し、予測されたパフォーマンスが高く分散が大きい有望なポリシーを優先的に評価します。

私たちはdm-control、Atari、シミュレートされた環境、および実際のロボティクスなど、いくつかのドメインのいくつかの環境でこの手順を実証しました。A-OPSを使用すると、迅速に後悔を減らし、適度な数のポリシー評価で最適なポリシーを特定することができます。

In a real-world robotic experiment, A-OPS helps identify a very good policy faster than other baselines. To find a policy with close to zero regret out of 20 policies takes the same amount of time as it takes to evaluate two policies with current procedures.

私たちの結果は、オフラインデータ、特別なカーネル、およびベイズ最適化を利用して、環境との少数の相互作用だけで効果的なオフラインポリシーの選択が可能であることを示唆しています。A-OPSのコードはオープンソースで、GitHubで利用可能で、試すためのサンプルデータセットも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「AIによる生成写真を用いた文学作品における信憑性のあるキャラクターの創造」

「空白のページを見つめながら、キャラクターに命を吹き込むことに苦労したことはありませんか? AIが生成した写真を視覚化し...

AIテクノロジー

人事革命:AIが人材管理を変革する方法

人事管理と人材管理に人工知能がどのように革新をもたらしているのか、さまざまな方法を調査してください人工知能が戦略的な...

AIテクノロジー

最高のAIジョブコース(2023年)

健康、経済、教育、セキュリティなどの分野を改善する機会を提供する最高のAIジョブコースに飛び込んでください

AIテクノロジー

なぜITスタッフオーグメンテーションを選ぶのですか?

テックプロジェクトの世界では、組織はしばしば2つの主要なデリバリーフレームワーク、つまりITスタッフの補完とプロジェクト...

AIテクノロジー

宇宙探索と最先端技術

「宇宙探査の絶え間なく進化する領域を探索し、その豊かな歴史、驚くべきマイルストーン、現在のトレンド、技術の影響、課題...

AIテクノロジー

「ファイナンシャルアドバイザーがAIを活用してより多くの価値を引き出す方法」

人工知能は、金融アドバイザリー業界を含むあらゆる分野に革命をもたらしていますデータ分析から自動取引まで、AIの広範な能...