DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました

DeepMindの研究者は連続した強化学習を再定義しました

深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを発揮しています。これらの結果を達成するための現在のアプローチは、主に興味のある狭いタスクをマスターする方法を学習するエージェントを開発することに従っています。未訓練のエージェントはこれらのタスクを頻繁に実行する必要があり、単純なRLモデルでも新しいバリエーションに一般化する保証はありません。それに対して、人間は生涯を通じて知識を獲得し、新しいシナリオに適応するために一般化します。これを連続的な強化学習(CRL)と呼びます。

RLにおける学習の視点は、エージェントがマルコフ環境と対話して最適な行動を効率的に特定することです。最適な行動の探索は学習の一点で停止します。たとえば、よく定義されたゲームをプレイしていると想像してください。ゲームをマスターしたら、タスクは完了し、新しいゲームシナリオについて学習することはありません。学習を解決策の発見ではなく、終わりのない適応として見る必要があります。

連続的な強化学習(CRL)はそのような研究を含みます。これは監督された終わりのない継続的な学習です。DeepMindの研究者は、エージェントを2つのステップで明示的に理解します。1つは、すべてのエージェントを行動の集合上で暗黙的に検索していると理解し、もう1つはすべてのエージェントが検索を続けるか、最終的に行動の選択肢で停止するという考え方です。研究者は、エージェントに関連する2つの生成子を生成到達演算子として定義します。この形式主義を使用して、彼らはCRLをすべてのエージェントが検索を停止しないRL問題として定義します。

ニューラルネットワークの構築には、要素の重みの任意の割り当てと、基盤のアクティブな要素の更新のための学習メカニズムが必要です。研究者は、CRLではネットワークのパラメータ数は構築できるものに制約され、学習メカニズムは基盤の無制約な検索方法ではなく確率的勾配降下法と考えることができます。ここで、基盤は任意ではありません。

研究者は、振る舞いの表現として機能する関数のクラスを選択し、経験に応じて望ましい方法で反応するための特定の学習ルールを利用します。関数のクラスの選択は、利用可能なリソースやメモリに依存します。確率的勾配降下法は、現在の基盤の選択肢を更新してパフォーマンスを向上させます。基盤の選択は任意ではありませんが、これにはエージェントの設計および環境によって課せられる制約も含まれます。

研究者は、学習ルールのさらなる研究が新しい学習アルゴリズムの設計を直接変更することができると主張しています。継続的な学習ルールの特徴付けにより、継続的な学習エージェントの収穫が保証され、基本的な継続的な学習エージェントの設計をガイドするためにさらに利用できます。彼らはまた、可塑性損失、インコンテキスト学習、および壊滅的な忘却などのさらなる手法の調査を意図しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」

チューリッヒ大学の研究者たちは、GPT-4などの大規模言語モデル(LLM)が自律的なファクトチェックにおいてどのような役割を...

機械学習

「Brain2Musicに会ってください:機能的磁気共鳴画像法(fMRI)を用いた脳活動から音楽を再構築するためのAI手法」

音楽が好きな人は誰でもいますよね?曲のリズムを覚えているけれど歌詞が思い出せず、曲の名前が分からないことはありません...

機械学習

MITの新しいAI研究は、深層ニューラルネットワークが私たちとは異なる方法で世界を見ていることを示しています

人間の感覚システムの複雑な機能を模倣することを目指して、神経科学と人工知能の研究者は、計算モデルと人間の知覚の間の不...

データサイエンス

「過小評価されている宝石Pt.1:あなたをプロにする8つのPandasメソッド」

しばらくはChatGPTを忘れましょう私たちの中には、シンプルなPandasの操作を行いたいときに毎回解決策をグーグルで検索するこ...

データサイエンス

5分であなたのStreamlitウェブアプリを展開してください

データサイエンティストが自分の仕事をダッシュボードや動作するWebアプリで紹介する必要性が高まってきていますWebアプリを...

機械学習

「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課...