行動の組み合わせによる高速強化学習
'高速強化学習の行動組み合わせ'
知能の構成性
新しいレシピを学ぶたびに、切ったり、皮をむいたり、かき混ぜたりする方法を毎回ゼロから学ばなければならないとしたらどうでしょうか。多くの機械学習システムでは、新たな課題に直面した際にエージェントは完全にゼロから学ばなければなりません。しかし、人間はこれよりも効率的に学習できることは明らかです。彼らは以前に学んだ能力を組み合わせることができます。有限の単語の辞書が無限の意味の文に再構築されるように、人々は既に持っているスキルを再利用し、再組み合わせして新しい課題に取り組むのです。
自然界では、学習は動物が環境を探索し、相互作用を通じて食物や他の報酬を得るために生じます。これは強化学習(RL)によって捉えられるパラダイムです。環境との相互作用により、報酬(またはペナルティ)に応じて特定の行動パターンが強化または抑制されます。最近、RLと深層学習の組み合わせにより、囲碁やチェスのようなボードゲーム、Atariゲームの全スペクトラム、さらにはDotaやStarCraft IIなどのより現代的で難しいビデオゲームをプレイする方法を学習できるエージェントなど、驚くべき結果が得られています。
RLの主な制限は、現在の手法が膨大な量のトレーニング経験を必要とすることです。たとえば、単一のAtariゲームをプレイする方法を学ぶために、RLエージェントは通常、連続した数週間のプレイに相当するデータを消費します。MITとハーバードの研究者が主導した研究によれば、人間は一部のケースで同じパフォーマンスレベルにたった15分のプレイで到達することができると示されています。
この相違の一つの可能な理由は、人間とは異なり、RLエージェントは通常、新しいタスクをゼロから学習することです。私たちのエージェントは、新しいレシピを作るのに料理経験のない人よりも簡単に新しいタスクを学習できるように、以前のタスクで獲得した知識を活用することを望んでいます。National Academy of Sciences(PNAS)に最近掲載された記事で、私たちはこの能力をRLエージェントに与えるためのフレームワークを説明しています。
世界の表現方法の2つの方法
私たちのアプローチを説明するために、日常のルーティンである(あるいは少なくとも以前は)通勤を例にします。次のシナリオを想像してみてください:エージェントは毎日自宅からオフィスへ通勤し、その途中でいつもコーヒーを飲みます。エージェントの家とオフィスの間には2つのカフェがあります。1つは長いルートですが素晴らしいコーヒーがあり、もう1つは短い通勤時間ですがまあまあのコーヒーがあります(図1を参照)。エージェントはコーヒーの品質と急ぎ具合のバランスがその日によってどれくらい重要かによって、2つのルートのうちの1つを選ぶことがあります(図1に示されている黄色と青のパス)。
従来のRLアルゴリズムは、モデルベースのエージェントとモデルフリーのエージェントの2つの大きなカテゴリに分類されます(図2&3)。モデルベースのエージェント(図2)は、環境の多くの側面の表現を構築します。このタイプのエージェントは、異なる場所がどのように接続されているか、各カフェのコーヒーの品質など、関連する情報を知っているかもしれません。モデルフリーのエージェント(図3)は、環境のはるかに簡潔な表現を持っています。たとえば、価値ベースのモデルフリーエージェントは、自宅を出発する各ルートに関連付けられた単一の数値を持っています。これは各ルートの期待される「価値」であり、コーヒーの品質と通勤時間の特定の重み付けを反映しています。図1に示されている青いパスを例に取りましょう。このパスの長さが4であり、エージェントがそれに従って得るコーヒーの評価が3つ星だとします。エージェントが通勤距離をコーヒーの品質よりも50%重視する場合、このパスの価値は(-1.5 x 4)+(1 x 3)= -3となります(距離に関連付けられた負の重みを使用して、より長い通勤は望ましくないことを示します)。
コーヒーの品質と通勤距離の相対的な重み付けは、エージェントの好みと解釈することができます。固定された好みのセットに対して、モデルフリーとモデルベースのエージェントは同じ経路を選択します。では、最終的な結果が同じであるなら、なぜモデルベースのエージェントが使用するようなより複雑な世界の表現を持つのでしょうか?エージェントが同じコーヒーを飲むのであれば、なぜ環境について多く学ぶ必要があるのでしょうか?
好みは日々変わることがあります。エージェントは、オフィスへのルートを計画する際に、自身がどれだけ空腹か、ミーティングに遅れていないかなどを考慮するかもしれません。モデルフリーエージェントがこれを処理する方法の1つは、すべての可能な好みのセットに関連付けられた最良のルートを学習することです。しかし、可能な好みの組み合わせをすべて学習するには時間がかかります。また、無限に多くの好みのセットがある場合、すべての可能な好みのセットに関連付けられたルートを学習することは不可能です。
これに対して、モデルベースのエージェントは、学習せずに好みのセットに適応することができます。すべての可能なルートを「想像」し、それらが現在の心情をどれだけ満たすかを尋ねることで、エージェントは適応するのです。ただし、このアプローチには欠点もあります。まず、すべての可能な経路を「心理的に」生成し評価することは、計算上の負荷がかかる場合があります。また、複雑な環境では、世界全体のモデルを構築することは非常に困難です。
モデルフリーエージェントは学習が速いですが、変更には弱いです。一方、モデルベースのエージェントは柔軟ですが、学習が遅い場合があります。中間の解決策はあるのでしょうか?
サクセサフィーチャー:中間の解決策
行動科学と神経科学の最近の研究は、特定の状況では人間や動物が、モデルフリーとモデルベースのアプローチの中間的な妥協を基に意思決定を行うと示唆しています(ここおよびここ)。仮説は、モデルフリーエージェントのように、人間も戦略の代替の価値を数値の形で計算するというものです。ただし、単一の数量を要約する代わりに、人間は周囲の世界を記述するさまざまな量を要約します。これはモデルベースエージェントを思い起こさせます。
RLエージェントにも同じ能力を与えることができます。この例では、各ルートには、コーヒーの品質を表す数値とオフィスまでの距離を表す数値があります。また、エージェントが意図的に最適化しようとしていないが将来の参照のために使用できる数値も関連付けることができます(例えば、各カフェの食べ物の品質)。エージェントが気にする要素や追跡する要素は、しばしば「フィーチャー」と呼ばれます。そのため、この世界の表現は「サクセサフィーチャー」と呼ばれます(元の表現では「サクセサレプリゼンテーション」と呼ばれていました)。
サクセサフィーチャーは、モデルフリーとモデルベースの表現の中間的な解決策と考えることができます。後者のように、サクセサフィーチャーはさまざまな量を要約し、単一の値を超えた世界を捉えます。ただし、モデルフリーの表現のように、エージェントが追跡する量は、エージェントが気にする特徴を要約した単純な統計量です。このように、サクセサフィーチャーはモデルフリーエージェントの「展開された」バージョンのようなものです。図4は、サクセサフィーチャーを使用するエージェントが私たちの例の環境をどのように見るかを示しています。
後継特徴の使用:ポリシーの辞書から新しい計画の合成
後継特徴は有用な表現手法です。なぜなら、異なる好みのセットでルートを評価することができるからです。再び図1の青いルートを例にとりましょう。後継特徴を使用すると、エージェントはこのパスに関連付けられた3つの数値を持ちます:パスの長さ(4)、コーヒーの品質(3)、食事の品質(5)。もしエージェントが既に朝食を食べた場合、食事にはあまり関心がないでしょう。また、遅い時間帯の場合、コーヒーの品質より通勤距離の方が重要になるかもしれません。例えば、通勤距離の重要度を50%増しにするとします。このシナリオでは、青いパスの価値は (-1.5 x 4) + (1 x 3) + (0 x 5) = -3 となります。しかし、今度はエージェントがお腹をすかせている日であり、食事にコーヒーほどの関心がある場合、このルートの価値をすぐに (-1.5 x 4) + (1 x 3) + (1 x 5) = 2 に更新することができます。同じ戦略を使って、エージェントは好みに応じて任意のルートを評価することができます。
上記の例では、エージェントはルートの選択肢の間で選択しています。一般的には、エージェントはポリシーを探索します。すなわち、どの状況においても何をすべきかを示す指示です。ポリシーとルートは密接に関連しています。先ほどの例では、家からカフェAへの道を選び、その後カフェAからオフィスへの道を選ぶポリシーは、青いパスを通過します。したがって、この場合、ポリシーとルートは同義語として扱うことができます(環境にランダム性がある場合はこれは当てはまりませんが、この詳細は置いておきます)。後継特徴がルート(またはポリシー)を異なる好みのセットで評価できることについて説明しました。このプロセスを一般化ポリシー評価(GPE)と呼びます。
GPEはなぜ有用なのでしょうか?エージェントがポリシーの辞書(例えば、オフィスへの既知のルート)を持っている場合、エージェントはGPEを使用して、その好みの下で辞書内の各ポリシーがどれだけ良いパフォーマンスを発揮するかを即座に評価することができます。そして、本当に興味深いのは、既知のポリシーのクイックな評価に基づいて、エージェントが即座に新しいポリシーを作成できることです。その作成方法は簡単です。エージェントが決定を下さなければならないたびに、次の質問をします。「もし私がこの決定を下し、その後で最大の価値を持つポリシーに従うとしたら、どの決定が最大の総合価値をもたらすだろうか?」驚くべきことに、エージェントが各状況で最大の総合価値をもたらす決定を選ぶと、それを作成するために使用される個々のポリシーよりも良いポリシーになることがしばしばあります。
このように、一連のポリシーを組み合わせてより良いポリシーを作成するプロセスを一般化ポリシー改善(GPI)と呼びます。図5は、実行例を使用してGPIがどのように機能するかを示しています。
エージェントが知っているポリシーの数によって、GPIを通じて作成されたポリシーのパフォーマンスが異なります。例えば、実行例では、エージェントが青と黄の経路を知っている限り、コーヒーの品質と通勤時間のどの好みに対しても最適な経路を見つけることができます。しかし、GPIポリシーは常に最適な経路を見つけるわけではありません。図1では、エージェントはカフェAを訪れた後にカフェBに行くことはありません。このような経路を接続するポリシーを既に知らない場合(図のオレンジルートのように)、エージェントはその経路を取りません。
GPEとGPIの効果を示すための簡単な例
GPEとGPIの利点を示すために、私たちは最近の論文からの実験の一部を紹介します(詳細は論文を参照してください)。この実験は、私たちのアプローチが有用な問題の抽象的な方法を表す単純な環境を使用しています。図6に示すように、環境は10 x 10のグリッドであり、それに10個のオブジェクトが配置されています。エージェントは、オブジェクトを拾った場合にのみ非ゼロの報酬を得ます。その場合、別の場所にランダムにオブジェクトが現れます。オブジェクトに関連付けられた報酬は、そのタイプに依存します。オブジェクトのタイプは具体的なまたは抽象的な概念を表すためのものです。実行例との関連付けについては、各オブジェクトが「コーヒー」または「食べ物」のいずれかであると考えます(エージェントが追跡する特徴です)。
明らかに、エージェントの最適な戦略は現在のコーヒーまたは食べ物への好みに依存します。例えば、図6では、コーヒーに関心を持つエージェントは赤い経路に従い、食べ物にのみ焦点を当てたエージェントは青い経路に従います。また、エージェントがコーヒーと食べ物を異なる重みで欲しい場合や、それらのうちの一方を避けたい場合など、中間の状況も想像できます。例えば、エージェントがコーヒーが欲しいが食べ物が全く欲しくない場合、図6の灰色の経路は赤い経路よりも良い選択肢になるかもしれません。
この問題の課題は、新しい好み(または「タスク」)に素早く適応することです。私たちの実験では、GPEとGPIを使用してこれを行う方法を示しました。私たちのエージェントは、コーヒーを求めるポリシーと食べ物を求めるポリシーの2つのポリシーを学習しました。そして、さまざまな好みに関連付けられたタスクでGPEとGPIによって計算されたポリシーがどれだけ優れているかをテストしました。図7では、コーヒーを求めながら食べ物を避けるという目標を持つタスクにおいて、私たちの方法をモデルフリーエージェントと比較しています。GPEとGPIを使用したエージェントがどのように合理的なポリシーを瞬時に合成するかを観察してください。これにより、オブジェクトを意図的に避ける方法を学んだことはありません。もちろん、GPEとGPIによって計算されたポリシーは、学習を通じて後で洗練されるため、モデルフリーエージェントの最終的なパフォーマンスと一致する可能性がありますが、その到達までの速さは異なるでしょう。
図7は、特定のタスクにおけるGPEとGPIのパフォーマンスを示しています。同じエージェントを他の多くのタスクでもテストしました。図8は、コーヒーと食べ物の相対的な重要性を変えた場合のモデルフリーとGPE-GPIエージェントのパフォーマンスの変化を示しています。モデルフリーエージェントは、各タスクを個別に学習する必要がありますが、GPE-GPIエージェントは2つのポリシーのみを学習してすぐにすべてのタスクに適応します。
上記の実験は、GPEとGPIに必要な特性を示すために不要な混乱要因のないシンプルな環境で行われました。しかし、GPEとGPIは大規模な環境でも適用されています。たとえば、以前の論文ではグリッドワールドを三次元環境に置き換え、エージェントが第一人称の視点から観測を受ける場合にも同じ戦略が機能することを示しました(詳細な動画はこちらとこちら)。また、GPEとGPIを使用して、三方向だけでなく任意の方向に移動できる四足ロボットを学習させることもあります(詳細な論文はこちら、動画はこちら)。
GPEとGPIの文脈で
GPEとGPIに関連する研究は、これらの操作個別に関連する2つの研究分野の交差点に位置しています。最初のGPEに関連するものは、Dayanの1993年の画期的な論文によって始まった後継者表現に関する研究です。Dayanの論文は、現在も非常に活発な神経科学の一線をなしている研究の始まりとなりました(さらなる参考文献:「神経科学における後継者表現」)。最近では、後継者表現はRLのコンテキストでも再登場し(リンクはこちらとこちら)、「後継者フィーチャー」とも呼ばれ、そこでも活発な研究分野となりました(さらなる参考文献:「GPE、後継者フィーチャー、および関連するアプローチ」)。後継者フィーチャーは、Suttonらの仮説に基づく一般的な価値関数にも密接に関連しており、関連する知識は世界に関する多くの予測の形で表現できるというものです(こちらでも議論されています)。後継者フィーチャーの定義はRL内の他のコンテキストでも独立に現れ、ディープRLと関連付けられるより最近のアプローチとも関連しています。
GPEとGPIの起源に関連する2番目の研究分野は、新しい振る舞いを作成するための振る舞いの組み合わせに関心を持っています。分散型コントローラがサブコントローラを実行するアイデアは、何度も提案されてきました(例:Brooks、1986年)、その実装は少なくとも1997年のHumphrysとKarlssonの博士論文まで遡ることができます。GPIは、階層型RLにも密接に関連しており、その基礎はDayanとHinton、ParrとRussell、Sutton、PrecupとSingh、Dietterichによる1990年代と2000年代初頭の研究で築かれました。振る舞いの組み合わせと階層型RLは、現在も研究の活発な分野です(さらなる参考文献:「GPI、階層型RL、および関連するアプローチ」)。
Mehtaらはおそらく最初にGPEとGPIを共同で使用した人たちであり、ただし、彼らが考慮したシナリオではGPIは最初の選択肢にまとめられます(つまり、ポリシーの「縫い合わせ」はありません)。このブログ投稿で議論されているGPEとGPIのバージョンは、2016年に転移学習を促進するメカニズムとして最初に提案されました。RLにおける転移は、Singhの1992年の研究にさかのぼり、最近ではディープRLのコンテキストで復活し、現在も活発な研究分野です(さらなる参考文献:「GPE + GPI、転移学習、および関連するアプローチ」)。
以下にこれらの作品に関する詳細情報をご覧いただけます。さらなる読み物の提案もリストアップしています。
強化学習の構成的アプローチ
要約すると、モデルフリーエージェントは新しい状況に簡単に適応することができません。例えば、これまで経験したことのない好みのセットに対応するためには困難が伴います。一方、モデルベースエージェントは任意の新しい状況に適応することができますが、そのためにはまず全体のモデルを学習する必要があります。GPEとGPIに基づくエージェントはその中間的な解決策を提供します。モデルベースエージェントと比べて学習する世界のモデルはかなり小さいですが、特定の状況に迅速に適応し、しばしば良好なパフォーマンスを発揮することができます。
私たちはGPEとGPIの具体的なインスタンスについて議論しましたが、実際にはこれらはより一般的な概念です。抽象レベルでは、GPEとGPIを使用するエージェントは2つのステップで進みます。まず、新しいタスクに直面したときに、既知のタスクの解決策がこの新しいタスクでどれくらいのパフォーマンスを発揮するか尋ねます。これがGPEです。次に、この評価に基づいて、エージェントは前の解決策を組み合わせて新しいタスクの解決策を構築します。つまり、GPIを実行します。GPEとGPIの具体的なメカニズムよりも、その原則自体の方が重要であり、これらの操作を実行するための代替方法を見つけることは興味深い研究方向となる可能性があります。興味深いことに、行動科学の新しい研究は、人間がGPEとGPIに非常に似た原則に基づいてマルチタスクシナリオで意思決定を行っていることを初期の証拠として提供しています。
GPEとGPIによる迅速な適応は、より早く学習する強化学習エージェントの構築に有望です。より一般的には、問題に対する柔軟な解決策を学ぶための新しいアプローチを示唆しています。問題を単一の一つの大きなタスクとして取り組む代わりに、エージェントはそれをより小さく、管理しやすいサブタスクに分割することができます。サブタスクの解決策は再利用され、再結合されて、全体のタスクをより速く解決するために使用されます。これにより、よりスケーラブルなエージェントにつながる、構成的な強化学習のアプローチが生まれる可能性があります。少なくとも、これらのエージェントはコーヒーカップのせいで遅刻することはありません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles