インタラクティブな知能の模倣
'Interactive intelligence imitation'
人工知能の研究を行う際には、最初に2つの質問に答える必要があります。AIシステムに何をしてほしいのか?そして、この目標に向かって進歩しているかどうかをどのように評価するのか?アラン・チューリングは、彼の画期的な論文であるチューリングテストを記述した際に、このような種類のAIにおいては、これらの質問が同じものかもしれないと主張しました。要するに、人と対話する場合にAIの振る舞いが人間のような知能に似ている場合、AIはテストに合格し、知能があると言えます。人間と対話することを目的としたAIは、人間との相互作用によってテストされるべきです。
同時に、相互作用は知能のテストだけでなく、目的でもあります。AIエージェントが一般的に役立つためには、私たちをさまざまな活動で支援し、自然にコミュニケーションを取るべきです。SF小説では、話しかけることができるロボットのビジョンは一般的です。多くのタスクを達成するのに役立つ知的なデジタルエージェントも非常に便利です。これらのデバイスを現実のものにするためには、私たちは人間と能力を持って相互作用し、豊かな世界で行動を生み出すエージェントの作成方法について研究する必要があります。
人間と世界と相互作用できるエージェントを構築することは、いくつかの重要な課題を提起します。どのようにして人工エージェントにそのような能力を教えるために適切な学習信号を提供できるのか?言語自体が曖昧で抽象的であるため、開発したエージェントのパフォーマンスをどのように評価することができるのか?風洞が飛行機の設計に対するものであるように、私たちは相互作用するエージェントを作るための仮想環境を作成しました。
最初に、仮想のロボットが移動し、オブジェクトを操作し、お互いに話すことで様々な興味深い相互作用が可能な「プレイルーム」と呼ばれるシミュレーション環境を作成します。プレイルームの寸法や棚、家具、窓やドアなどのランドマーク、子供のおもちゃや家庭用品の割り当てなどはランダムに変化させることができます。環境の多様性により、空間やオブジェクトの関係についての推論、参照の曖昧さ、含有、構築、サポート、遮蔽、部分的な観測性を含む相互作用が可能になります。私たちはプレイルームに2つのエージェントを埋め込み、共同意図、協力、個人的な知識の伝達などを研究するための社会的な次元を提供しています。
私たちは模倣学習、強化学習、教師あり学習、教師なし学習など、人間と相互作用するエージェントを構築するためにさまざまな学習パラダイムを利用しています。「模倣ゲーム」という名前をつけたことで、チューリングが人間と相互作用できるエージェントを作成するために最も直接的な方法かもしれません。人間の行動に関する大規模なデータセットと、それらのデータからの模倣学習のアルゴリズムは、テキスト言語やゲームをプレイするエージェントを作成するために重要な役割を果たしてきました。言語に基づく相互作用では、既存の行動データソースは利用できないため、人間の参加者同士が相互作用することによって相互作用を引き出すシステムを作成しました。これらの相互作用は、プレイヤーの一人に対して「他のプレイヤーに何かを配置するように頼んでください」といった指示を即興で行うことを促すことが主な目的でした。一部の相互作用のプロンプトには質問と指示が含まれており、「何かの位置を説明してください」といったものもあります。合計して、この設定で1年以上にわたるリアルタイムの人間の相互作用を収集しました。
模倣学習、強化学習、補助学習(教師ありおよび教師なしの表現学習を含む)は、最高のエージェントを作成する上で重要な相互自己対戦形式に統合されています。このようなエージェントはコマンドを実行し、質問に答えることができます。私たちはこれらのエージェントを「ソルバー」と呼んでいます。しかし、私たちのエージェントはコマンドを発することも質問をすることもできます。私たちはこれらのエージェントを「セッター」と呼んでいます。セッターは問題をソルバーに対して対話的に提示し、より良いソルバーを生み出します。しかし、一度エージェントが訓練されると、人間はセッターとしてプレイし、ソルバーエージェントと対話することができます。
私たちの相互作用は、ほとんどのシンプルな強化学習問題と同じように評価することはできません。例えば、勝つことや負けることという概念はありません。実際には、言語を使って物理的な環境を共有しながらコミュニケーションをすることは、抽象的で曖昧な概念の驚くほど多くを導入します。例えば、セッターがソルバーに何かを近くに置くように頼む場合、具体的には「近く」とは何を意味するのでしょうか?しかし、訓練されたモデルの正確な評価は、現代の機械学習と人工知能の中核です。この設定に対応するために、私たちはエージェントの問題を診断しスコアリングするためのさまざまな評価方法を開発しました。その中には、人間が大規模なトライアルでエージェントと対話するというものもあります。
私たちの設定の明確な利点は、人間オペレーターが言語を通じて仮想的な無限のタスクセットを設定し、私たちのエージェントの能力を素早く理解できることです。彼らが対処できない多くのタスクがありますが、私たちのAIを構築するアプローチは、成長する能力セット全体で改善するための明確な道筋を提供しています。私たちの方法は一般的であり、複雑な環境と人々と対話するエージェントが必要な場所に適用することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles