インタラクティブな知能の模倣

'Interactive intelligence imitation'

人工知能の研究を行う際には、最初に2つの質問に答える必要があります。AIシステムに何をしてほしいのか？そして、この目標に向かって進歩しているかどうかをどのように評価するのか？アラン・チューリングは、彼の画期的な論文であるチューリングテストを記述した際に、このような種類のAIにおいては、これらの質問が同じものかもしれないと主張しました。要するに、人と対話する場合にAIの振る舞いが人間のような知能に似ている場合、AIはテストに合格し、知能があると言えます。人間と対話することを目的としたAIは、人間との相互作用によってテストされるべきです。

同時に、相互作用は知能のテストだけでなく、目的でもあります。AIエージェントが一般的に役立つためには、私たちをさまざまな活動で支援し、自然にコミュニケーションを取るべきです。SF小説では、話しかけることができるロボットのビジョンは一般的です。多くのタスクを達成するのに役立つ知的なデジタルエージェントも非常に便利です。これらのデバイスを現実のものにするためには、私たちは人間と能力を持って相互作用し、豊かな世界で行動を生み出すエージェントの作成方法について研究する必要があります。

人間と世界と相互作用できるエージェントを構築することは、いくつかの重要な課題を提起します。どのようにして人工エージェントにそのような能力を教えるために適切な学習信号を提供できるのか？言語自体が曖昧で抽象的であるため、開発したエージェントのパフォーマンスをどのように評価することができるのか？風洞が飛行機の設計に対するものであるように、私たちは相互作用するエージェントを作るための仮想環境を作成しました。

最初に、仮想のロボットが移動し、オブジェクトを操作し、お互いに話すことで様々な興味深い相互作用が可能な「プレイルーム」と呼ばれるシミュレーション環境を作成します。プレイルームの寸法や棚、家具、窓やドアなどのランドマーク、子供のおもちゃや家庭用品の割り当てなどはランダムに変化させることができます。環境の多様性により、空間やオブジェクトの関係についての推論、参照の曖昧さ、含有、構築、サポート、遮蔽、部分的な観測性を含む相互作用が可能になります。私たちはプレイルームに2つのエージェントを埋め込み、共同意図、協力、個人的な知識の伝達などを研究するための社会的な次元を提供しています。

プレイルームで相互作用するエージェント。青いエージェントは黄色いエージェントに「ヘリコプターを箱に入れて」と指示しています。

私たちは模倣学習、強化学習、教師あり学習、教師なし学習など、人間と相互作用するエージェントを構築するためにさまざまな学習パラダイムを利用しています。「模倣ゲーム」という名前をつけたことで、チューリングが人間と相互作用できるエージェントを作成するために最も直接的な方法かもしれません。人間の行動に関する大規模なデータセットと、それらのデータからの模倣学習のアルゴリズムは、テキスト言語やゲームをプレイするエージェントを作成するために重要な役割を果たしてきました。言語に基づく相互作用では、既存の行動データソースは利用できないため、人間の参加者同士が相互作用することによって相互作用を引き出すシステムを作成しました。これらの相互作用は、プレイヤーの一人に対して「他のプレイヤーに何かを配置するように頼んでください」といった指示を即興で行うことを促すことが主な目的でした。一部の相互作用のプロンプトには質問と指示が含まれており、「何かの位置を説明してください」といったものもあります。合計して、この設定で1年以上にわたるリアルタイムの人間の相互作用を収集しました。

私たちのエージェントは、画像と言語を入力として受け取り、物理的なアクションと言語アクションを出力します。同じ入力仕様で報酬モデルを構築しました。

<img alt="左：2分間の相互作用の間に、2人のプレイヤー（セッターとソルバー）が移動し、周りを見回し、オブジェクトを掴んだり置いたり、話したりします。右：セッターは「他のプレイヤーに何かを持ち上げてもらってください」と促されます。セッターはソルバーエージェントに「ダイニングテーブルの前にある飛行機を持ち上げてください」と指示します。ソルバーエージェントは正しいオブジェクトを見つけて課題を完了します。

模倣学習、強化学習、補助学習（教師ありおよび教師なしの表現学習を含む）は、最高のエージェントを作成する上で重要な相互自己対戦形式に統合されています。このようなエージェントはコマンドを実行し、質問に答えることができます。私たちはこれらのエージェントを「ソルバー」と呼んでいます。しかし、私たちのエージェントはコマンドを発することも質問をすることもできます。私たちはこれらのエージェントを「セッター」と呼んでいます。セッターは問題をソルバーに対して対話的に提示し、より良いソルバーを生み出します。しかし、一度エージェントが訓練されると、人間はセッターとしてプレイし、ソルバーエージェントと対話することができます。

人間のデモンストレーションから、教師あり学習（行動クローニング）、逆強化学習による報酬モデルの推論、および推論された報酬モデルを使用した方向強化学習を組み合わせてポリシーをトレーニングします。ポリシーと報酬モデルの表現を整形するために、半教師あり補助タスクを使用します。

セッターエージェントは、ソルバーエージェントに「白いロボットをベッドに置いてください」と依頼します。ソルバーエージェントはロボットを見つけてタスクを達成します。デモンストレーションから学習された報酬関数は、タスクの重要な側面（青）を捉え、同じ観察が反事実の指示「赤いロボットをベッドに置いてください」と結び付けられた場合には報酬が少なくなります（灰色）

私たちの相互作用は、ほとんどのシンプルな強化学習問題と同じように評価することはできません。例えば、勝つことや負けることという概念はありません。実際には、言語を使って物理的な環境を共有しながらコミュニケーションをすることは、抽象的で曖昧な概念の驚くほど多くを導入します。例えば、セッターがソルバーに何かを近くに置くように頼む場合、具体的には「近く」とは何を意味するのでしょうか？しかし、訓練されたモデルの正確な評価は、現代の機械学習と人工知能の中核です。この設定に対応するために、私たちはエージェントの問題を診断しスコアリングするためのさまざまな評価方法を開発しました。その中には、人間が大規模なトライアルでエージェントと対話するというものもあります。

<img alt="プレイルームでの指示の実行および質問に対するエージェントと他の人間のパフォーマンスを人間が評価しました。ランダムに初期化されたエージェントはほぼ0％の成功率でした。教師あり行動クローニングのみでトレーニングされたエージェント（B）は、成功率が10〜20％程度でした。半教師あり補助タスクも含めてトレーニングされたエージェント（B·A）の方がより良い結果を示しました。教師あり、半教師あり、相互自己対戦を使用した強化学習でトレーニングされたエージェント（BG·A & BGR·A）が最も優れたパフォーマンスを示したと判断されました。

私たちの設定の明確な利点は、人間オペレーターが言語を通じて仮想的な無限のタスクセットを設定し、私たちのエージェントの能力を素早く理解できることです。彼らが対処できない多くのタスクがありますが、私たちのAIを構築するアプローチは、成長する能力セット全体で改善するための明確な道筋を提供しています。私たちの方法は一般的であり、複雑な環境と人々と対話するエージェントが必要な場所に適用することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

インタラクティブな知能の模倣

Was this article helpful?

MuZero ルールなしでGo、チェス、将棋、アタリをマスターする

JAXを使用して研究を加速化する

AIテクノロジー

人工知能による投資アドバイス - メリットとデメリット

忙しい生活を管理するためにAIツールを利用する6つの賢い方法

アルゴリズム取引と金融におけるAIにおける知的財産権法の理解

「2024年に注目すべきトップ10のリモートスタッフィングエージェンシー」

Python Webスクレイピングの始め方（LLMs向け）

小売業の革新：AIが顧客体験、在庫管理、マーケティングに与える影響