メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

「メタAI研究者が、生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化」

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。強化学習では、モデルは経験から学習し、最適なアクションを特定します。近年、RLは大幅に進化し、自律走行車からロボティクス、さらにはゲーミングまで、幅広い分野で応用されています。また、RLシステムの容易な開発を支援するライブラリの開発も大きく進歩しています。そのようなライブラリの例にはRLLib、Stable-Baselines 3などがあります。

成功したRLエージェントを作成するには、遅延報酬やその他の影響などの問題に対処する必要があります。また、利用と探索のバランスを見つけたり、安全性やリスク要件などの追加パラメータを考慮することで、破滅的な状況を回避する必要があります。現在のRLライブラリは非常に強力ですが、これらの問題を十分に解決していません。そのため、Metaの研究者が「Pearl」というライブラリをリリースしました。このライブラリは上記の問題を考慮し、ユーザーが実世界のアプリケーションに対して多目的なRLエージェントを開発できるようにします。

PearlはPyTorchに基づいて構築されており、GPUと分散トレーニングとの互換性があります。また、テストと評価のためのさまざまな機能も提供しています。Pearlの主なポリシーラーニングアルゴリズムはPearlAgentと呼ばれ、知識の探索、リスク感度、安全制約などの特徴があり、オフラインとオンラインの学習、安全学習、履歴の要約、再生バッファなどのコンポーネントがあります。

効果的なRLエージェントは、オフライン学習アルゴリズムを使用してポリシーを学習し、評価できるようにする必要があります。さらに、オフラインとオンラインのトレーニングには、データ収集とポリシー学習のためのセキュリティ対策が必要です。それに加えて、エージェントはさまざまなモデルを使用して状態表現を学習し、履歴を状態表現に要約して望ましくないアクションをフィルタリングする能力も持っている必要があります。最後に、エージェントは再生バッファを使用してデータを効率的に再利用し、学習効率を向上させる必要もあります。Metaの研究者は、これらのすべての機能をPearl(特にPearlAgent)の設計に取り入れ、RLエージェントの設計において多目的かつ効果的なライブラリとしての潜在能力を備えています。

研究者は、モジュール性、知識の探索、安全性などの要素を評価しながらPearlを既存のRLライブラリと比較しました。Pearlは、これらの機能をすべて実装し、必要な機能を組み込んでいない競合他社とは区別されました。たとえば、RLLibはオフラインRL、履歴の要約、再生バッファをサポートしていますが、モジュール性と知識の探索をサポートしていません。同様に、SB3はモジュール性、安全な意思決定、およびコンテキストバンディットを組み込んでいません。これが研究者によって注目される他のライブラリとの違いです。

Pearlはまた、リコメンダーシステム、オークション入札システム、クリエイティブセレクションなど、さまざまな実世界のアプリケーションをサポートする予定です。これにより、異なるドメインでの複雑な問題を解決するための有望なツールとなります。RLは近年、大幅な進歩を遂げていますが、実世界の問題を解決するための実装は依然として困難です。しかし、Pearlは知識の探索や安全性、履歴の要約などの独自の特徴を持つことで、RLの広範な統合において貴重なツールとしての潜在能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータ...

人工知能

3Dアーティストのヌルハン・イスマイルは、Adobe After EffectsとBlenderを使用して、イソメトリックな革新を「NVIDIA Studio」にもたらす

編集者の注:この投稿は、弊社の週刊In the NVIDIA Studioシリーズの一部で、注目されたアーティストを称え、クリエイティブ...

機械学習

「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」

近年、大規模言語モデル(LLM)の開発により、人工知能(AI)と機械学習の分野において革新的な変化がもたらされました。これ...

データサイエンス

軌跡予測のためのマップマッチング

この記事では、ノイズのあるGPSセンサーからサンプリングされた過去のトリップのデータベースを使用して、デジタル道路ネット...

人工知能

「トップのローコード/ノーコードAIツール(2023年9月)」

低コードおよびノーコードのAIツールとプラットフォームの台頭により、機械学習を新たな方法で活用するアプリケーションが開...

データサイエンス

大規模言語モデル、MirrorBERT — モデルを普遍的な単語ベクトルと文エンコーダーに変換する

「BERTのようなモデルが現代の自然言語処理アプリケーションにおいて基本的な役割を果たしていることは秘密ではありません下...