このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します

This Python library Imitation provides open-source implementations of imitation and reward learning algorithms in PyTorch.

明確な報酬関数が定義されたゲームのような領域では、強化学習(RL)は人間のパフォーマンスを上回っています。残念ながら、現実世界の多くのタスクでは報酬関数を手続き的に設計することは困難か不可能です。代わりに、ユーザーフィードバックから報酬関数やポリシーを即座に吸収する必要があります。さらに、ゲームでエージェントが勝つ場合など、報酬関数を定式化できたとしても、RLが効果的に解くためには、得られる目標がよりスパースになる必要がある場合があります。そのため、RLの最先端の結果では、しばしば模倣学習がポリシーの初期化に使用されます。

本記事では、7つの報酬と模倣学習アルゴリズムの優れた、信頼性の高い、モジュラーな実装を提供するライブラリであるimitationについて説明します。重要なことは、彼らのアルゴリズムのインターフェースが一貫しているため、さまざまな方法をトレーニングして比較することが容易になることです。また、PyTorchやStable Baselines3などの最新のバックエンドを使用してimitationを構築しています。それに対して、以前のライブラリは複数のアルゴリズムをサポートしていることが多く、更新されていないことがあり、時代遅れのフレームワークで構築されていました。imitationは実験のベースラインとして多くの重要なアプリケーションを持っています。以前の研究によると、模倣学習アルゴリズムの実装の細かい部分はパフォーマンスに大きな影響を与えることがあります。

imitationは、信頼性のあるベースラインを提供するだけでなく、新しい報酬と模倣学習アルゴリズムの作成プロセスを簡素化することを目指しています。不適切な実験ベースラインを使用すると、誤って肯定的な結果が報告される可能性があります。彼らの技術は慎重にベンチマーク化され、この困難を克服するために以前のソリューションと比較されています。また、彼らは静的型チェックを実施し、コードの98%をカバーするテストを行っています。彼らの実装はモジュラーであり、コードを変更せずに報酬またはポリシーネットワークのアーキテクチャ、RLアルゴリズム、およびオプティマイザを柔軟に変更することができます。

必要なメソッドをサブクラス化してオーバーライドすることで、アルゴリズムを拡張することができます。また、imitationはロールアウトの収集などのルーチンな活動に取り組むための実用的な方法を提供しており、完全に新しいアルゴリズムの作成を促進します。PyTorchやStable Baselines3などの最先端のフレームワークを使用してモデルが構築されているという利点もあります。これに対して、現在の模倣学習や報酬学習アルゴリズムの多くは数年前に公開され、最新の状態に保たれていません。これは、GAILやAIRLのコードベースなど、元の論文と一緒に提供される参照実装に特に当てはまります。

他のアルゴリズムとの模倣比較

しかし、Stable Baselines2などの人気のあるライブラリももはやアクティブに開発されていません。上記の表では、さまざまな指標で代替ライブラリを比較しています。模倣学習と報酬学習アルゴリズムのすべての実装を含めることはできませんが、この表は彼らの知識に基づいて広く使用されている模倣学習ライブラリをすべて含んでいます。彼らは、模倣学習がすべての指標で他の選択肢と同等または優れていることを発見しています。APRelスコアは高く評価されていますが、低次元の特徴から学習する好み比較アルゴリズムに重点を置いています。これは、モデルとは補完的であり、より広範なアルゴリズムを提供し、実装の複雑さを増す代わりにスケーラビリティを重視しています。PyTorchの実装はGitHubで見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

データサイエンス

「なぜ機械は思考できるのか」というテーマに関して

17世紀に、レネ・デカルトは比較的新しい考えを紹介しましたーCogito ergo sum(「私は考える、ゆえに私は存在する」)この簡...

機械学習

Mistral-7B-v0.1をご紹介します:新しい大型言語モデルの登場' (Misutoraru 7B v0.1 wo goshōkai shimasu Atarashii ōgata gengo moderu no tōjō)

“`html Mistral-7B-v0.1は、大規模な言語モデル(LLM)の人工知能(AI)の最新の進歩の一つです。Mistral AIの最新のLL...

機械学習

ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル(LLM)の新時代を...

AIニュース

「無人運転車は子供や肌の色の濃い人を見つけるのに苦労するかもしれません」

「科学者たちは、自動運転車の研究で使用される8つの人工知能ベースの歩行者検出器を評価し、それらが子供や肌の色の濃い人を...

AI研究

「NVIDIAのAIが地球を気候変動から救う」

ベルリンサミットの基調講演で、NVIDIAの創設者兼CEOのJensen Huang氏は、AIとデジタルツイン技術が気候研究のイノベーション...

AIニュース

「韓国が自律型ロボットに歩道の利用を許可」

「韓国政府は、認可された自律ロボットを国の歩道を走らせることを許可しています」