「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」

Meta researcher proposes 'Head to Tail' a new criterion for measuring factual knowledge of large-scale language models, replacing the Knowledge Graph with LLM.

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツを生成することができます。ChatGPTやLLaMAなどの事前学習済みの大規模言語モデル(LLM)は、素晴らしい能力を持っており、素材を理解し、頻繁なクエリに応答することができます。いくつかの研究では、彼らは知識を内面化し、問い合わせに応答する能力を示しています。しかし、LLMは大きく進化しているものの、特定のドメインの微妙なニュアンスを高度に理解することができず、幻覚として誤った情報を生成する傾向があります。これは、LLMの正確性を向上させ、幻覚的な応答の発生率を減らすための重要な障害を示しています。

LLMに関連する議論は、主に以下の3つの主要な領域に焦点を当てています。それは、LLMが生成した応答の幻覚を減らすこと、LLMの事実的な正確性を向上させること、そしてLLMが世界の知識を象徴的な形式で記憶する手段として知識グラフ(KG)をいずれ置き換える可能性についての推測です。最近、Meta Reality Labsの研究チームは、これらの問いに答える新しいアプローチを取り、LLMが実際にどれだけの情報を持っているかを判断しようと試みました。

知識に関してLLMがどれだけ精通しているかという問いには、2つの側面があります。まず第一に、LLM内に含まれる知識を直接的に問いかけることは困難かもしれません。モデルのパラメータに既に組み込まれている知識であっても、知識の不足や生成モデルの誤作動によって幻覚が引き起こされる可能性があります。この研究では、LLMの中に含まれる知識の程度をある基準として正確さを使用することを提案しています。これは、「バスケットボール選手のマイケル・ジョーダンはどこで生まれましたか?」のような明確で正確な質問に対するモデルの回答能力を評価するものです。LLMには簡潔な回答を提供するように求められ、自信が低い場合には「unsure」という言葉を使用して不確実性を認めるようにします。

第二に、ユーザーの関心の多様性や世界の情報の広がりを正確に反映する利用可能なベンチマークは存在しません。最も包括的な知識グラフでも、知識のギャップが存在し、特にあまり知られていない事実に関しては顕著です。LLMや検索エンジンのクエリログは一般に利用できません。

これらの制限に対処するために、チームは「Head-to-Tail」というベンチマークを作成しました。このベンチマークは、人気のある主題に基づいてヘッド、トルソー、テールの事実に分けられた18,000の質問と回答(QA)のセットで構成されています。これらのカテゴリには異なる一般的な認知レベルが反映されています。チームは、LLMが適切に吸収した知識の幅を密接に反映する評価方法と一連の尺度を作成し、LLMが保持する知識を評価するために使用しています。

研究の中心は、一般の人々に利用可能な14のLLMの評価です。その結果、既存のLLMは事実データの理解を完全に習得する点でまだ大幅な改善が必要であることが示されました。特に、トルソーからテールの領域に含まれる、あまり知られていない組織に関する情報については、これが当てはまります。

結論として、この研究は最近提案されたベンチマークと最新の評価技術を使用してLLMの事実的な知識を検証しています。この研究は、重要な研究課題を扱い、具体的な結果を示すことにより、大規模言語モデルが事実情報を組み込む上での信頼性と将来の進展に関する継続的な議論に重要な貢献をしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「思考の連鎖を自動化する:AIが自身に推論を促す方法」

Auto-CoTのプロンプト手法は、多様性に基づくサンプリングとゼロショット生成を使用して、LLMsが複雑な推論を促すために自ら...

機械学習

「イノベーションと持続可能性のバランス:病理学における環境責任に対する現実的なアプローチ」

この研究は、病理学における重大な懸念である深層学習の炭素排出量(CO2eq)に焦点を当てています。この環境への影響は、医療応...

機械学習

ビジネスにおけるオープンソースと専有モデルの選択:生成型人工知能の展開において

ジェネレーティブAIへの関心の高まりにより、2023年中頃には約350社の企業がこの分野に参入しました[1]それぞれが基礎モデル...

機械学習

「MLOpsを活用した顧客離反予測プロジェクト」

イントロダクション データサイエンスと聞くと、まず思い浮かぶのはノートブック上でモデルを構築しデータをトレーニングする...

データサイエンス

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータ...

AIニュース

Amazon Pollyを使用してテキストが話されている間にテキストをハイライト表示します

Amazon Pollyは、テキストを生き生きとした音声に変換するサービスですこのサービスは、テキストを複数の言語に音声に変換す...