「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」
「FANToM 機械心理理論のストレステストのためのベンチマークとなる相互作用の解明」
会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの能力を評価する上で改善が必要です。それに対処するため、同じ推論スキルを必要とする様々な質問が設計されました。これらの質問はLLMの限定されたToMの能力を明らかにしました。推論の連鎖や微調整を行っても、最先端のLLMはこれらの質問に対処する際にまだ支援が必要で、人間の基準を下回るパフォーマンスを示します。
異なる大学の研究者たちは、会話型の質疑応答を通じてLLMのToMをテストするためのベンチマークであるFANToMを紹介しました。これにはLLMの評価に心理学的な観点や経験的な洞察が組み込まれています。FANToMは最先端のLLMにとっても難しいものであり、推論や微調整を行っても人間よりもパフォーマンスが悪いことが示されています。このベンチマークでは、キャラクターの知識に関する質問に対する2値の回答や特定の情報を持つキャラクターの列挙を求めることによってLLMを評価しました。人間のパフォーマンスは11人の学生ボランティアで評価されました。
FANToMは、社会的な相互作用に焦点を当てた会話文脈で機械のToMを評価するために設計された新しい英語のベンチマークです。キャラクター間の情報の非対称性や異なる心的状態を強調し、多数の参加者による会話内の1万の質問を含んでいます。その目標は、モデルが議論内の信念を追跡し、他者の心的状態を理解し、幻想的なToMの事例を特定する能力を測定することです。
- 「フリーノイズ」にご挨拶:複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法
- リーンで、意味ありげなAI夢マシン:DejaVuは知能を失わずにAIとのおしゃべりコストを削減しる
- 人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて
FANToMは、情報の非対称性を持つ会話文脈で機械のToMを質問応答を通じて試験するベンチマークです。そのベンチマークには、アクセスできない情報による異なる心的状態を持つキャラクターが関与する会話に基づく1万の質問が含まれています。推論の連鎖や微調整を行っても、既存のLLMはFANToMで人間よりも明らかに性能が低く、評価結果が示すとおりです。
FANToMの評価結果は、推論の連鎖や微調整を行っても既存のLLMが人間よりも明らかに性能が低いことを示しています。FANToMでの一部のLLMのToM推論は幻想的と見なされ、異なるキャラクターの視点を理解する能力に欠けていることを示しています。ゼロショットの推論の連鎖や微調整を適用しても、LLMのスコアは改善されますが、人間のパフォーマンスと比べて大きなギャップが存在します。これらの結果は、LLMに一貫したToM推論能力を持つモデルを開発する上での課題を強調し、LLMの人間レベルの理解を実現することの困難さを示しています。
まとめると、FANToMは会話の中でのLLMのToMを評価するための貴重なベンチマークであり、現実世界のユースケースにより良く合致するより対話指向の基準が必要であることを強調しています。この評価では、現在のLLMは高度な技術を用いても人間と比較して性能が低いことが示されています。また、ニューラルモデルの内部的な整合性の問題を特定し、それに対処するためのさまざまなアプローチも提供しています。FANToMはToMの推論を実践的な状況や視覚情報、信念グラフに基づいて考えるようにするなど、将来の研究方向も示唆しています。評価は特定のトピックにとどまらず、さまざまな会話シナリオを含み、視覚情報などの多様な要素を組み合わせることができます。ニューラルモデルの内部的な整合性の問題に取り組むことは重要です。FANToMは現在、さらなる研究のために公開されており、LLMのToM理解の進歩を促進しています。将来の研究では、より動的な社会的推論のために関係変数を組み込むことが考慮されるかもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「AIとIMOの課題を結ぶ:形式的な平面幾何学システムにおける大発見」
- 「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」
- AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表
- 「IBMのワトソンXコードアシスタントと出会おう:AIパワーの助けを借りてエンタープライズコーディングを革新する」
- デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク
- 「2024年のソフトウェア開発のトレンドと予測18」
- ハイパーパラメータ調整:GridSearchCVとRandomizedSearchCVの説明