マルチモーダルインタラクティブエージェントの評価

Evaluation of Multimodal Interactive Agents.

人間との相互作用をうまく行うエージェントを訓練するためには、進歩を測定できるようにする必要があります。しかし、人間との相互作用は複雑であり、進歩を測定することは困難です。本研究では、時間的に拡張された多様な相互作用を評価するための手法である「Standardised Test Suite (STS)」を開発しました。我々は、3Dシミュレート環境でのタスク実行と質問に対するエージェントへの人間の参加による相互作用を調査しました。

STSの手法では、エージェントを実際の人間の相互作用データから抽出した一連の行動シナリオに配置します。エージェントは再生されたシナリオの文脈を見て、指示を受け取り、その後、オフラインで相互作用を完了するための制御を与えられます。これらのエージェントの継続は記録され、その後、人間の評価者によって成功または失敗として注釈が付けられます。エージェントは、成功したシナリオの割合に基づいて順位付けされます。

図1:2人の人間の相互作用から抽出されたオリジナルのシナリオと成功または失敗したエージェントの継続の例。

私たちの日常の相互作用において人間にとって当たり前の行動の多くは、言葉にすることが難しく、形式化することは不可能です。したがって、強化学習によるゲーム(Atari、Go、DotA、およびStarcraftなど)の解決に頼るメカニズムは、エージェントに流暢で成功した相互作用を持たせることを試みる際には機能しません。例えば、次の2つの質問の違いについて考えてみてください。「この囲碁の対局は誰が勝ちましたか?」と「何を見ているんですか?」。最初の場合、ゲームの終わりにボード上の石を数え、確定的に勝者を決定するコンピュータコードを書くことができます。しかし、2番目の場合、これをコード化する方法はわかりません。答えは話者に依存するかもしれませんし、関連するオブジェクトのサイズや形状、話者が冗談を言っているかどうか、発話が行われる文脈の他の側面などに依存する可能性があります。人間は、このささいな質問に答えるために関連する多くの要素を直感的に理解しています。

人間の参加によるインタラクティブな評価は、エージェントのパフォーマンスを理解するための基準となりますが、これはノイズが多くコストもかかります。評価時に人間がエージェントに与える正確な指示を制御することは困難です。この評価はリアルタイムで行われるため、進捗に頼るには速すぎます。以前の研究では、インタラクティブな評価のためにプロキシを使用してきました。プロキシは、損失やスクリプトによるプローブタスク(例えば「xを持ち上げる」で、xは環境からランダムに選択され、成功関数が手間暇をかけて手作りされたもの)などの形で使用され、エージェントについての洞察を迅速に得るのに役立ちますが、実際のインタラクティブな評価とはあまり相関しません。私たちの新しい手法は、主に制御と速度を提供し、究極の目標である人間との良好な相互作用を実現するために密接に合致するメトリックを持つ利点があります。

図2:インタラクティブエージェントの評価に使用される他の評価メトリックと比較したSTS評価。STSは、以前のプロキシと比較してインタラクティブな評価と最も相関があります。

MNIST、ImageNetなどの人間による注釈付きデータセットの開発は、機械学習の進歩に不可欠です。これらのデータセットにより、研究者は分類モデルを訓練および評価するために一度だけ人間の入力コストをかけることができました。STSの手法は、人間-エージェントの相互作用研究において同様のことを目指しています。この評価方法では、引き続き人間がエージェントの継続を注釈付けする必要がありますが、初期の実験ではこれらの注釈の自動化が可能な場合があると示唆されており、これによりインタラクティブなエージェントの迅速かつ効果的な自動評価が可能になる可能性があります。一方で、私たちは他の研究者がこの方法論とシステム設計を利用して、この領域での研究を加速させることを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「AIは善良な存在です:その理由」

映画「巨像コロッサス」が公開されてから53年が経ちましたこの映画は初めてAI(人工知能)や能力が急速に成長するさまざまな...

AIテクノロジー

成功の鍵を開ける:IBM Watsonがあなたのビジネスを革命する方法

「IBM WatsonのAIが、さまざまな業界でビジネスを変革し、データに基づいた意思決定、効率化された業務、充実した顧客体験、...

AIテクノロジー

AIの進歩における倫理的な課題のナビゲーション

「AIの進展に伴う倫理的な課題の多面的な景観を探求してみましょうAIが社会により統合されるにつれて倫理と責任に関する懸念...

AIテクノロジー

オンライン収益を新たな高みに引き上げましょう - リモートワークの成長する可能性を解き放ってください

オンラインの仕事は今まで以上に人気があります人々が在宅勤務の利点を発見するにつれ、世界中には1400万人以上のフリーラン...

AIテクノロジー

「2024年のトップ5大学の証明書」

「大学の証明書が技術セクターに特化した知識と専門知識の扉を開く方法を探索してください」

AIテクノロジー

2023年にリモートジョブを見つけるための最高のプラットフォーム

進化する労働環境に伴い、リモートの仕事の機会を提供する信頼性のあるプラットフォームへの需要が急増しています詳しくはこ...