DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました

DeepMindの研究者は連続した強化学習を再定義しました

深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを発揮しています。これらの結果を達成するための現在のアプローチは、主に興味のある狭いタスクをマスターする方法を学習するエージェントを開発することに従っています。未訓練のエージェントはこれらのタスクを頻繁に実行する必要があり、単純なRLモデルでも新しいバリエーションに一般化する保証はありません。それに対して、人間は生涯を通じて知識を獲得し、新しいシナリオに適応するために一般化します。これを連続的な強化学習(CRL)と呼びます。

RLにおける学習の視点は、エージェントがマルコフ環境と対話して最適な行動を効率的に特定することです。最適な行動の探索は学習の一点で停止します。たとえば、よく定義されたゲームをプレイしていると想像してください。ゲームをマスターしたら、タスクは完了し、新しいゲームシナリオについて学習することはありません。学習を解決策の発見ではなく、終わりのない適応として見る必要があります。

連続的な強化学習(CRL)はそのような研究を含みます。これは監督された終わりのない継続的な学習です。DeepMindの研究者は、エージェントを2つのステップで明示的に理解します。1つは、すべてのエージェントを行動の集合上で暗黙的に検索していると理解し、もう1つはすべてのエージェントが検索を続けるか、最終的に行動の選択肢で停止するという考え方です。研究者は、エージェントに関連する2つの生成子を生成到達演算子として定義します。この形式主義を使用して、彼らはCRLをすべてのエージェントが検索を停止しないRL問題として定義します。

ニューラルネットワークの構築には、要素の重みの任意の割り当てと、基盤のアクティブな要素の更新のための学習メカニズムが必要です。研究者は、CRLではネットワークのパラメータ数は構築できるものに制約され、学習メカニズムは基盤の無制約な検索方法ではなく確率的勾配降下法と考えることができます。ここで、基盤は任意ではありません。

研究者は、振る舞いの表現として機能する関数のクラスを選択し、経験に応じて望ましい方法で反応するための特定の学習ルールを利用します。関数のクラスの選択は、利用可能なリソースやメモリに依存します。確率的勾配降下法は、現在の基盤の選択肢を更新してパフォーマンスを向上させます。基盤の選択は任意ではありませんが、これにはエージェントの設計および環境によって課せられる制約も含まれます。

研究者は、学習ルールのさらなる研究が新しい学習アルゴリズムの設計を直接変更することができると主張しています。継続的な学習ルールの特徴付けにより、継続的な学習エージェントの収穫が保証され、基本的な継続的な学習エージェントの設計をガイドするためにさらに利用できます。彼らはまた、可塑性損失、インコンテキスト学習、および壊滅的な忘却などのさらなる手法の調査を意図しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

LLMの出力解析:関数呼び出し対言語チェーン

「LLMを使用したツールの作成には、ベクトルデータベース、チェーン、エージェント、ドキュメント分割ツールなど、複数のコン...

AI研究

DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました

深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを...

機械学習

「メールの生産性を革新する:SaneBoxのAIがあなたの受信トレイの体験を変える方法」

生産性について誰かが書くたびに、暗い情景を描くことから始めるようです。「今日のデジタル時代では、誰も何もできない̷...

機械学習

「完璧なコンビ:adidasとCovision MediaがAIとNVIDIA RTXを使用して写真のようなリアルな3Dコンテンツを作成」

物理製品の3Dスキャンを作成するのは時間がかかる場合があります。多くの企業は、フォトグラメトリーベースのアプリやスキャ...

AI研究

「Google DeepMindの研究者たちは、PROmptingによる最適化(OPRO)を提案する:大規模言語モデルを最適化器として」

人工知能の分野では、自然言語処理、自然言語生成、自然言語理解、およびコンピュータビジョンなどのサブフィールドがますま...

機械学習

「40歳以上の方におすすめのクールなAIツール(2023年12月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクの動画や画像を作成したい人向けのAIベースのツールです。動画、写真、ミ...