人間のデータなしでの堅牢なリアルタイム文化伝達の学習

学習 人間データなしでのリアルタイム文化伝達

何千年にもわたり、人類は航海路から数学、社会的な規範から芸術作品まで、文化的な知識を発見し、進化させ、蓄積してきました。文化的伝達とは、効率的に情報を個人から別の個人へ伝えることを指し、この指数関数的な人間の能力の増大の基礎となる継承プロセスです。

青色の我々のエージェントは、左側のボットと右側の人間のデモンストレーションを模倣し、覚えます。

我々のエージェントのアクションの他のビデオは、私たちのウェブサイトでご覧いただけます。

この研究では、深層強化学習を使用して、テスト時に文化的伝達が可能な人工エージェントを生成します。訓練された後、我々のエージェントは専門家によって示された航法知識を推論し、思い出すことができます。この知識の伝達はリアルタイムで行われ、以前に見たことのない多くのタスクにわたって一般化します。例えば、我々のエージェントは、人間のデータに基づいたトレーニングを行うことなく、単一の人間のデモンストレーションを観察することで新しい行動を素早く学習することができます。

強化学習環境の概要。調理、道案内、問題解決など、特定の戦略的な決定の連続を必要とする、人間のスキルの広範なクラスの航行の代表的なタスクです。

私たちは、カラフルな球体の目標が障害物の多いノイズのある地形に埋め込まれた、手続き的に生成された3Dワールドでエージェントを訓練し、テストしています。プレイヤーは正しい順序で目標をナビゲートしなければなりませんが、順序は各エピソードでランダムに変更されます。順序を推測することは不可能ですので、素朴な探索戦略は大きなペナルティを負います。文化的に伝達される情報源として、常に正しい順序で目標に入る特権を持つ「ボット」を提供します。

障害物のない世界(上)および障害物のある世界(下)で、弊社のMEDAL(-ADR)エージェントは、保留されたタスクでアブレーションを上回ります。

アブレーションにより、文化的伝達が現れるために必要な最小限のトレーニング要素である「MEDAL-ADR」を特定します。これらの要素には、メモリ(M)、エキスパートのドロップアウト(ED)、エキスパートへの注意バイアス(AL)、および自動ドメインランダム化(ADR)が含まれます。我々のエージェントは、難しい保留されたタスクの範囲全体で、最先端の手法(ME-AL)を含むアブレーションを上回ります。文化的伝達は驚くほど分布外においてもうまく一般化し、エキスパートが去ってからもデモンストレーションを思い出します。エージェントの脳を見ると、社会的な情報と目標状態をエンコードする責任のある解釈可能なニューロンが存在することがわかります。

弊社のエージェントは、トレーニング分布外でも一般化し(上)、社会的情報をエンコードする個別のニューロンを持っています(下)。

要約すると、人間のデータをトレーニングパイプラインで使用せずに、柔軟で高い再現性を持つリアルタイムの文化的伝達が可能なエージェントを訓練する手順を提供します。これにより、文化の進化がより一般的に知能の高い人工エージェントを開発するためのアルゴリズムとなる道が開かれます。

この著者のノートは、Cultural General Intelligenceチームによる共同作業に基づいています:Avishkar Bhoopchand、Bethanie Brownfield、Adrian Collister、Agustin Dal Lago、Ashley Edwards、Richard Everett、Alexandre Fréchette、Edward Hughes、Kory W. Mathewson、Piermaria Mendolicchio、Yanko Oliveira、Julia Pawar、Miruna Pîslar、Alex Platonov、Evan Senter、Sukhdeep Singh、Alexander Zacherl、Lei M. Zhang。

こちらでフルペーパーを読むことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more