「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

「FANToM 機械心理理論のストレステストのためのベンチマークとなる相互作用の解明」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの能力を評価する上で改善が必要です。それに対処するため、同じ推論スキルを必要とする様々な質問が設計されました。これらの質問はLLMの限定されたToMの能力を明らかにしました。推論の連鎖や微調整を行っても、最先端のLLMはこれらの質問に対処する際にまだ支援が必要で、人間の基準を下回るパフォーマンスを示します。

異なる大学の研究者たちは、会話型の質疑応答を通じてLLMのToMをテストするためのベンチマークであるFANToMを紹介しました。これにはLLMの評価に心理学的な観点や経験的な洞察が組み込まれています。FANToMは最先端のLLMにとっても難しいものであり、推論や微調整を行っても人間よりもパフォーマンスが悪いことが示されています。このベンチマークでは、キャラクターの知識に関する質問に対する2値の回答や特定の情報を持つキャラクターの列挙を求めることによってLLMを評価しました。人間のパフォーマンスは11人の学生ボランティアで評価されました。

FANToMは、社会的な相互作用に焦点を当てた会話文脈で機械のToMを評価するために設計された新しい英語のベンチマークです。キャラクター間の情報の非対称性や異なる心的状態を強調し、多数の参加者による会話内の1万の質問を含んでいます。その目標は、モデルが議論内の信念を追跡し、他者の心的状態を理解し、幻想的なToMの事例を特定する能力を測定することです。

FANToMは、情報の非対称性を持つ会話文脈で機械のToMを質問応答を通じて試験するベンチマークです。そのベンチマークには、アクセスできない情報による異なる心的状態を持つキャラクターが関与する会話に基づく1万の質問が含まれています。推論の連鎖や微調整を行っても、既存のLLMはFANToMで人間よりも明らかに性能が低く、評価結果が示すとおりです。

FANToMの評価結果は、推論の連鎖や微調整を行っても既存のLLMが人間よりも明らかに性能が低いことを示しています。FANToMでの一部のLLMのToM推論は幻想的と見なされ、異なるキャラクターの視点を理解する能力に欠けていることを示しています。ゼロショットの推論の連鎖や微調整を適用しても、LLMのスコアは改善されますが、人間のパフォーマンスと比べて大きなギャップが存在します。これらの結果は、LLMに一貫したToM推論能力を持つモデルを開発する上での課題を強調し、LLMの人間レベルの理解を実現することの困難さを示しています。

まとめると、FANToMは会話の中でのLLMのToMを評価するための貴重なベンチマークであり、現実世界のユースケースにより良く合致するより対話指向の基準が必要であることを強調しています。この評価では、現在のLLMは高度な技術を用いても人間と比較して性能が低いことが示されています。また、ニューラルモデルの内部的な整合性の問題を特定し、それに対処するためのさまざまなアプローチも提供しています。FANToMはToMの推論を実践的な状況や視覚情報、信念グラフに基づいて考えるようにするなど、将来の研究方向も示唆しています。評価は特定のトピックにとどまらず、さまざまな会話シナリオを含み、視覚情報などの多様な要素を組み合わせることができます。ニューラルモデルの内部的な整合性の問題に取り組むことは重要です。FANToMは現在、さらなる研究のために公開されており、LLMのToM理解の進歩を促進しています。将来の研究では、より動的な社会的推論のために関係変数を組み込むことが考慮されるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Falcon AI 新しいオープンソースの大規模言語モデル

はじめに Open AIによるGPT(Generative Pre Trained)の発表以来、世界はGenerative AIによって大いに沸き立っています。そ...

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

データサイエンス

データ駆動型生成AI:データと分析の利点

ジェネラティブAIは、データと分析の領域を革命化し、生産性を高め、納期を短縮すると位置付けられています

人工知能

生産性向上のための10の最高のAIツール(決定版リスト)

時間を取り戻したい、同僚を凌駕したい、そして好きなことにもっと時間を費やしたいのであれば、AIツールを使用することは明...

データサイエンス

生成AIモデル:マーチャンダイジング分析のユーザーエクスペリエンス向上

私たちのデータプラットフォームで利用可能なデータについて、ビジネスユーザーが何でも尋ねることができるように、生成型AI...