「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

「FANToM 機械心理理論のストレステストのためのベンチマークとなる相互作用の解明」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの能力を評価する上で改善が必要です。それに対処するため、同じ推論スキルを必要とする様々な質問が設計されました。これらの質問はLLMの限定されたToMの能力を明らかにしました。推論の連鎖や微調整を行っても、最先端のLLMはこれらの質問に対処する際にまだ支援が必要で、人間の基準を下回るパフォーマンスを示します。

異なる大学の研究者たちは、会話型の質疑応答を通じてLLMのToMをテストするためのベンチマークであるFANToMを紹介しました。これにはLLMの評価に心理学的な観点や経験的な洞察が組み込まれています。FANToMは最先端のLLMにとっても難しいものであり、推論や微調整を行っても人間よりもパフォーマンスが悪いことが示されています。このベンチマークでは、キャラクターの知識に関する質問に対する2値の回答や特定の情報を持つキャラクターの列挙を求めることによってLLMを評価しました。人間のパフォーマンスは11人の学生ボランティアで評価されました。

FANToMは、社会的な相互作用に焦点を当てた会話文脈で機械のToMを評価するために設計された新しい英語のベンチマークです。キャラクター間の情報の非対称性や異なる心的状態を強調し、多数の参加者による会話内の1万の質問を含んでいます。その目標は、モデルが議論内の信念を追跡し、他者の心的状態を理解し、幻想的なToMの事例を特定する能力を測定することです。

FANToMは、情報の非対称性を持つ会話文脈で機械のToMを質問応答を通じて試験するベンチマークです。そのベンチマークには、アクセスできない情報による異なる心的状態を持つキャラクターが関与する会話に基づく1万の質問が含まれています。推論の連鎖や微調整を行っても、既存のLLMはFANToMで人間よりも明らかに性能が低く、評価結果が示すとおりです。

FANToMの評価結果は、推論の連鎖や微調整を行っても既存のLLMが人間よりも明らかに性能が低いことを示しています。FANToMでの一部のLLMのToM推論は幻想的と見なされ、異なるキャラクターの視点を理解する能力に欠けていることを示しています。ゼロショットの推論の連鎖や微調整を適用しても、LLMのスコアは改善されますが、人間のパフォーマンスと比べて大きなギャップが存在します。これらの結果は、LLMに一貫したToM推論能力を持つモデルを開発する上での課題を強調し、LLMの人間レベルの理解を実現することの困難さを示しています。

まとめると、FANToMは会話の中でのLLMのToMを評価するための貴重なベンチマークであり、現実世界のユースケースにより良く合致するより対話指向の基準が必要であることを強調しています。この評価では、現在のLLMは高度な技術を用いても人間と比較して性能が低いことが示されています。また、ニューラルモデルの内部的な整合性の問題を特定し、それに対処するためのさまざまなアプローチも提供しています。FANToMはToMの推論を実践的な状況や視覚情報、信念グラフに基づいて考えるようにするなど、将来の研究方向も示唆しています。評価は特定のトピックにとどまらず、さまざまな会話シナリオを含み、視覚情報などの多様な要素を組み合わせることができます。ニューラルモデルの内部的な整合性の問題に取り組むことは重要です。FANToMは現在、さらなる研究のために公開されており、LLMのToM理解の進歩を促進しています。将来の研究では、より動的な社会的推論のために関係変数を組み込むことが考慮されるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「アリババは、量子コンピューティングよりもこれを優先します」

中国のテック巨人であるアリババは最近、量子コンピューティング部門を廃止するという戦略的な重点の大幅な転換を発表しまし...

人工知能

「Stack Overflowは、OverflowAIによって開発者サポートを革新します」

Stack Overflowは、技術的な回答を求める開発者向けの有名なプラットフォームです。革新的なOverflowAIの提供により、生成型A...

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

機械学習

高リスクの女性における前がん変化の予測 マンモグラフィに基づくディープラーニング手法の突破

人工知能(AI)と深層学習の進歩により、医療診断と患者ケアの向上に新たな可能性が開かれました。最近のRadiology:Artifici...

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

人工知能

ChatGPTのデジタル商品をオンラインで販売するプロンプト

ChatGPTは、オンラインでデジタル製品を販売して収益を上げたい人にとって、ありがたい存在です