「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

「FANToM 機械心理理論のストレステストのためのベンチマークとなる相互作用の解明」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの能力を評価する上で改善が必要です。それに対処するため、同じ推論スキルを必要とする様々な質問が設計されました。これらの質問はLLMの限定されたToMの能力を明らかにしました。推論の連鎖や微調整を行っても、最先端のLLMはこれらの質問に対処する際にまだ支援が必要で、人間の基準を下回るパフォーマンスを示します。

異なる大学の研究者たちは、会話型の質疑応答を通じてLLMのToMをテストするためのベンチマークであるFANToMを紹介しました。これにはLLMの評価に心理学的な観点や経験的な洞察が組み込まれています。FANToMは最先端のLLMにとっても難しいものであり、推論や微調整を行っても人間よりもパフォーマンスが悪いことが示されています。このベンチマークでは、キャラクターの知識に関する質問に対する2値の回答や特定の情報を持つキャラクターの列挙を求めることによってLLMを評価しました。人間のパフォーマンスは11人の学生ボランティアで評価されました。

FANToMは、社会的な相互作用に焦点を当てた会話文脈で機械のToMを評価するために設計された新しい英語のベンチマークです。キャラクター間の情報の非対称性や異なる心的状態を強調し、多数の参加者による会話内の1万の質問を含んでいます。その目標は、モデルが議論内の信念を追跡し、他者の心的状態を理解し、幻想的なToMの事例を特定する能力を測定することです。

FANToMは、情報の非対称性を持つ会話文脈で機械のToMを質問応答を通じて試験するベンチマークです。そのベンチマークには、アクセスできない情報による異なる心的状態を持つキャラクターが関与する会話に基づく1万の質問が含まれています。推論の連鎖や微調整を行っても、既存のLLMはFANToMで人間よりも明らかに性能が低く、評価結果が示すとおりです。

FANToMの評価結果は、推論の連鎖や微調整を行っても既存のLLMが人間よりも明らかに性能が低いことを示しています。FANToMでの一部のLLMのToM推論は幻想的と見なされ、異なるキャラクターの視点を理解する能力に欠けていることを示しています。ゼロショットの推論の連鎖や微調整を適用しても、LLMのスコアは改善されますが、人間のパフォーマンスと比べて大きなギャップが存在します。これらの結果は、LLMに一貫したToM推論能力を持つモデルを開発する上での課題を強調し、LLMの人間レベルの理解を実現することの困難さを示しています。

まとめると、FANToMは会話の中でのLLMのToMを評価するための貴重なベンチマークであり、現実世界のユースケースにより良く合致するより対話指向の基準が必要であることを強調しています。この評価では、現在のLLMは高度な技術を用いても人間と比較して性能が低いことが示されています。また、ニューラルモデルの内部的な整合性の問題を特定し、それに対処するためのさまざまなアプローチも提供しています。FANToMはToMの推論を実践的な状況や視覚情報、信念グラフに基づいて考えるようにするなど、将来の研究方向も示唆しています。評価は特定のトピックにとどまらず、さまざまな会話シナリオを含み、視覚情報などの多様な要素を組み合わせることができます。ニューラルモデルの内部的な整合性の問題に取り組むことは重要です。FANToMは現在、さらなる研究のために公開されており、LLMのToM理解の進歩を促進しています。将来の研究では、より動的な社会的推論のために関係変数を組み込むことが考慮されるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

認知AI:人間のように考えるAIへの道

目的は、関連する予測を行い、自動的な意思決定をすることができるようにすることですつまり、新しい文脈情報をアクションに...

AIニュース

OpenAI GPT(ジェネラル プロダクト トランスフォーマー):自分自身で作るChatGPTを活用した対話型AI

私たちの詳細な記事でカスタムGPTについて学びましょうその中では、あなたのニーズに合わせたAIチャットボットを簡単に作成す...

AIテクノロジー

ChatGPTが1歳になりました:バイラルなモバイルアプリと数百万ドルの収益!

2023年は盛りだくさんの一年でした。ChatGPTが1年を迎え、我々の日常生活における人工知能の境界を再定義してきました。ChatG...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...

AI研究

「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」

研究チームは地震モデルの現状を変革しようとしています。 カリフォルニア大学バークレー校、カリフォルニア大学サンタクルー...

AIニュース

ChatGPTを使用してAIエージェントを作成する

新しい「カスタムインストラクション」機能を使うことで、ChatGPTをAIエージェントに変えることができます