自動化された進化が厳しい課題に取り組む
自動化された進化に取り組む
強化学習(RL)を使用する深層ニューラルネットワーク(DNN)は、ゲーム、自然言語処理(NLP)、コンピュータビジョン(CV)、教育、交通、金融、医療、ロボット工学などの分野で、人間が生成するアルゴリズムと同等のものを作成することができます。これは、画期的な論文『Introduction to Deep Reinforcement Learning (DRL)』によって示されています。
残念ながら、DNNの成功は、初期ハイパーパラメータ(DNNの幅や深さ、および他のアプリケーション固有の初期条件など)に対する感度のためにますます困難になっています。ただし、最近では、RLと進化計算(EC)を組み合わせることで、この制限を克服することができるようになりました。進化計算は、学習エージェントの集団を維持し、各エージェントに固有の初期条件を持たせることで、最適な解を「進化」させる方法です。この手法は、中国の南方科技大学、ドイツのビーレフェルト大学、英国のサリー大学との共同研究で、Ran Cheng氏とその同僚によって提案されました。
多くの進化する学習エージェントから選ぶことにより、進化強化学習(EvoRL)は、自動車やロボットなどの解決が困難な学際的なタスクにおいて、DRLの知能を拡張しています。これは、英国のウォリック大学のオペレーションリサーチとシステムの教授であり、ACMの新しいジャーナル『Transactions on Evolutionary Learning and Optimization』の編集長であるJurgen Branke氏が述べています。
Branke氏は、「自然は進化と学習の2つの適応方法を使用しています。ですから、これら2つのパラダイムの組み合わせが『インシリコ』(つまり、生物学的進化に似たアルゴリズム的な『進化』)でも成功していることは驚くことではありません」と述べています。
強化学習
強化学習は、深層ニューラルネットワーク(DNN)のための3つの主要な学習アルゴリズムのうち最新のものです(DNNは、多くの内部層を追加することにより、セミナルな3層パーセプトロンとは異なり、その内部層の機能はプログラマーによって完全に理解されていません)。最初の2つの主要なDNN学習方法は、人間によってラベル付けされたデータから学習する教師あり学習(例えば、鳥、車、花の写真などをそれぞれラベル付けする)と、DNNのブラックボックスによって見つかった類似点に基づいてデータをラベルなしでグループ化する教師なし学習でした。
一方、強化学習は、人間によって作成された評価関数から受け取る累積報酬を最大化することを目的として、ラベルなしのデータを好みのセットにグループ化します。その結果、DNNは他の学習方法を上回るためにRLを使用するDNNとなりますが、それでも知識が蓄積されている内部層は数学的なモデルには適合しないという特徴があります。たとえば、ゲーム理論では、累積報酬は勝利したゲームになります。『最適化』という用語は、Marco Wiering(オランダのフローニンゲン大学)とMartijn Otterlo(オランダのラッドボウト大学)が2012年の論文『Reinforcement Learning』で強化学習で得られた手法を説明するために使用されていますが、RLで見つかった「最適な行動」が「最も」最適な解であることを証明する方法はありません。
このため、RLは解の空間の未知の隅々を探索し、より最適な報酬を得るかどうか、さらには既に蓄積された知識からDNNをより最適な解に誘導するかどうかを確認します。Richard Sutton(カナダのアルバータ大学のコンピュータ科学の教授であり、DeepMindの優れた研究員でもある)とAndrew Bartow(マサチューセッツ大学アマースト校の名誉教授)の2012年の論文『Reinforcement learning: An introduction』によれば、強化学習は最適化に向けて進むにつれて、ますます高い累積報酬を達成します。
進化計算
一方、進化計算は、問題解決エージェントのランダムな集団を作成し、それぞれを「自然」選択(最悪のエージェントを破棄し、他のエージェントを変異させ、プロセスを繰り返す)にさらすことで「進化」させます。各エージェントはフィットネス関数によって評価されます。このプロセスは、最適な解が得られるまで必要な回数繰り返されますが、完全に最適であることは保証されていません。
進化計算が強化学習と組み合わされると(EvoRL)、組み合わせた方法論は異なるアプリケーション特有の初期条件を持つエージェント集団を進化させるため、適切な最適解に収束しないDRLを手動で再起動する必要がなくなります。
「EvoRLは、RLと進化的手法の強みを活かして複雑な問題に取り組むための強力なフレームワークを提供します。エージェントはさまざまなポリシーを探索することができるため、新しい戦略の発見や自律システムの開発に貢献します」と、ノアズアークラボ(パリ)のシニアAI研究員であり、ACMの新しいジャーナルTransactions on Evolutionary Learning and Optimizationで公開される特集号のゲストエディターであるGiuseppe Paolo氏は述べています。
もう一人のゲストエディターであるAutodeskのAI Lab(ドイツ)の主任研究員であるAdam Gaier氏は、「私たちはこの組み合わせた領域を両方の分野の研究者や実践者に注目してもらい、さらなる探求を促すために紹介したかったのです。特集号では、この分野の包括的なレビュー、新しいオリジナル研究、および現実の問題に対するEvoRLの応用を取り上げています。そのため、EvoRLは、RLの最大の障害に取り組むために強化学習(RL)と進化計算の力を結合させた、ますます活発な領域です」と述べています。
通常、強化学習単体では評価関数によって提供される勾配に従って潜在的な解を効果的に改善しますが、進化計算はまず候補解の集団をランダムに選びます。集団は人間によって提供されたフィットネス関数によって評価されます。フィットネスが最も低いものは破棄され、残りのものは進化計算を通じて変異します。このプロセスは最適化の収束点に達するまで繰り返されます。これにより、進化プロセスはローカルオプティマムに陥る可能性が低くなり、アントワーヌ・カリー(英国のインペリアルカレッジロンドンのロボット工学と人工知能の上級講師であり、適応およびインテリジェントロボット工学研究室のディレクター)によると「創造性」を提供します。
特別号のゲスト編集者であるカリー氏は、「進化的強化学習の領域は非常に興味深い研究分野であり、進化アルゴリズムの創造性と探索能力を深層強化学習の勾配降下法の効果と組み合わせることができるため、複雑なニューラルネットワークポリシーを最適化することができます。これらの2つの研究分野の相乗効果を探索するのはまだ初めの段階ですが、既に成果を上げています。」と述べています。
また、程氏らによれば、現在利用されているEvoRLの主要なバリエーションは6つあります(上記のグラフのキャプションにリストされています)。効率性は改良の主要な方向であり、6つの主要なEvoRLアルゴリズムは計算量が多いため、改善が必要です。エンコーディング、サンプリング方法、探索演算子、アルゴリズムのフレームワーク、およびフィットネス/評価方法についても改善が必要です。ベンチマークも必要ですが、程氏らによれば、6つの基本的なアプローチは異なるハイパーパラメータとアプリケーション固有のアルゴリズムを使用しているため、厳密に定義するのは難しいかもしれません。拡張可能なプラットフォームも必要であり、現在開発中ですが、主に6つの主要なアプローチのうち1つまたは2つに限定されています。
R. Colin Johnsonは、2つの十年間技術ジャーナリストとして活動してきた京都賞フェローです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「KPMG、AIに20億ドル以上の賭けをし、120億ドルの収益を目指す」
- 「MicrosoftとKPMGが20億ドルのAIパートナーシップを締結」
- Google AIは、LLMsへの負担を軽減する新しい手法「ペアワイズランキングプロンプティング」を提案しています
- Google AIは、「ペアワイズランキングプロンプティング」という新しい方法を提案し、LLMsの負担を軽減することを目指しています
- VoAGIニュース、7月12日:ChatGPTに関する5つの無料コース • チェーンオブスロートプロンプティングの力
- 「AIをウェルコネクトされたチームに統合するためのヒントとトリック」
- 交通部門でのAIのトップ6の使用法