メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

「メタAI研究者が、生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化」

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。強化学習では、モデルは経験から学習し、最適なアクションを特定します。近年、RLは大幅に進化し、自律走行車からロボティクス、さらにはゲーミングまで、幅広い分野で応用されています。また、RLシステムの容易な開発を支援するライブラリの開発も大きく進歩しています。そのようなライブラリの例にはRLLib、Stable-Baselines 3などがあります。

成功したRLエージェントを作成するには、遅延報酬やその他の影響などの問題に対処する必要があります。また、利用と探索のバランスを見つけたり、安全性やリスク要件などの追加パラメータを考慮することで、破滅的な状況を回避する必要があります。現在のRLライブラリは非常に強力ですが、これらの問題を十分に解決していません。そのため、Metaの研究者が「Pearl」というライブラリをリリースしました。このライブラリは上記の問題を考慮し、ユーザーが実世界のアプリケーションに対して多目的なRLエージェントを開発できるようにします。

PearlはPyTorchに基づいて構築されており、GPUと分散トレーニングとの互換性があります。また、テストと評価のためのさまざまな機能も提供しています。Pearlの主なポリシーラーニングアルゴリズムはPearlAgentと呼ばれ、知識の探索、リスク感度、安全制約などの特徴があり、オフラインとオンラインの学習、安全学習、履歴の要約、再生バッファなどのコンポーネントがあります。

効果的なRLエージェントは、オフライン学習アルゴリズムを使用してポリシーを学習し、評価できるようにする必要があります。さらに、オフラインとオンラインのトレーニングには、データ収集とポリシー学習のためのセキュリティ対策が必要です。それに加えて、エージェントはさまざまなモデルを使用して状態表現を学習し、履歴を状態表現に要約して望ましくないアクションをフィルタリングする能力も持っている必要があります。最後に、エージェントは再生バッファを使用してデータを効率的に再利用し、学習効率を向上させる必要もあります。Metaの研究者は、これらのすべての機能をPearl(特にPearlAgent)の設計に取り入れ、RLエージェントの設計において多目的かつ効果的なライブラリとしての潜在能力を備えています。

研究者は、モジュール性、知識の探索、安全性などの要素を評価しながらPearlを既存のRLライブラリと比較しました。Pearlは、これらの機能をすべて実装し、必要な機能を組み込んでいない競合他社とは区別されました。たとえば、RLLibはオフラインRL、履歴の要約、再生バッファをサポートしていますが、モジュール性と知識の探索をサポートしていません。同様に、SB3はモジュール性、安全な意思決定、およびコンテキストバンディットを組み込んでいません。これが研究者によって注目される他のライブラリとの違いです。

Pearlはまた、リコメンダーシステム、オークション入札システム、クリエイティブセレクションなど、さまざまな実世界のアプリケーションをサポートする予定です。これにより、異なるドメインでの複雑な問題を解決するための有望なツールとなります。RLは近年、大幅な進歩を遂げていますが、実世界の問題を解決するための実装は依然として困難です。しかし、Pearlは知識の探索や安全性、履歴の要約などの独自の特徴を持つことで、RLの広範な統合において貴重なツールとしての潜在能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

セマンティックヒアリング:リアルな環境で特定の音を重点的に集中させたり無視したりしながら、空間認識を維持するための機械学習に基づくヒアラブルデバイスの新しい機能

ワシントン大学とマイクロソフトの研究者は、先進的な機械学習アルゴリズムによって駆動される意味解釈能力を持つノイズキャ...

AI研究

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

データサイエンス

初心者向けの生成AIの優しい紹介

ここ数ヶ月間、いわゆる「生成AI」の台頭が見られますその基礎を理解する時が来ました

データサイエンス

「より良いMLシステムの構築-第4章 モデルの展開とその先」

モデルを展開し、その制作を支援することは、機械学習よりもエンジニアリングに関わります機械学習のプロジェクトが制作段階...

コンピュータサイエンス

「A.I.があなたについて嘘をついた場合、あなたは何ができるのか?」

「人々は、技術が彼らについての誤りを作り出し、広める際にほとんど保護や救済手段がありません」

機械学習

『AI入門』

「ここでは、AIの学び方についての私の以前の記事を読んでいることを前提としています再度お伝えしますが、機械学習を学ぶ際...