中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る

『中国のこのAI研究は、AIの幻覚を追求する:大型言語モデルにおける幻視の深層探究』

大型言語モデルは最近、自然言語処理におけるパラダイムの変化をもたらし、以前には考えられなかった言語の創造、理解、推論の進歩をもたらしました。しかし、LLMの急速な発展と共に共起する懸念すべき傾向は、信憑性があるように思える情報を誘発し、事実の裏付けがないというものです。現在の幻覚の定義は、それらが与えられたソースコンテンツに対して不合理であるかまたは不忠実であると説明しており、以前の研究と一致しています。元の素材との不一致の程度に基づいて、これらの幻覚は内在的な幻覚と外在的な幻覚のカテゴリーにさらに分けられます。

タスク固有のバリアントが存在しますが、このカテゴリはいくつかの自然言語生成の仕事で共有されています。タスク固有のモデルと比較して、LLMはその優れた適応性と優れた性能のため、特にオープンドメインの応用において、幻覚を引き起こす可能性が高いです。LLM内では、幻覚は事実の不正確さに主眼を置いたより広範かつ包括的な概念であり、その幻覚タクソノミーはLLMの進化に合わせて関連性と柔軟性を向上させるために修正する必要があります。中国の哈爾滨工业大学と Huawei の研究チームがこの研究で幻想的なタクソノミーを再分類し、LLMの応用により専門化された基盤を提供しています。

彼らは幻覚を主に2つのカテゴリに分けています:忠実度幻覚と事実性幻覚。事実性の幻覚では、作成されたコンテンツと検証された現実世界の事実との違いに重点が置かれます;これらの違いは通常、でっち上げや事実の不一致として現れます。例えば、図1に示すように、月に初めて足を踏み入れた人物に関する質問に対して、モデルは1951年にチャールズ・リンドバーグがそうしたと自信を持って回答するでしょう。しかし、1969年のアポロ11号のミッションにより、ニール・アームストロングが初めて月に足を踏み入れました。一方、「信頼性の幻想」は生成されたコンテンツがユーザーの指示や入力の文脈からの不一致や離反を表す用語です。

図1に見られるように、ニュースストーリーを説明するように求められた際にイスラエルとハマスの対立に関する出来事の日付を間違ってしまい、2023年10月を2006年10月と誤解するモデルが生成しました。彼らはまた、事実性を検証可能なソースの存在に応じて、事実の不一致と事実のでっち上げの2つのサブカテゴリに細分化しています。彼らはユーザーの視点から不一致を解消することに重点を置き、論理的な、文脈的な、指示的な不一致に分類しています。これにより、現在のLLMの使用方法により一致するようになりました。これはNLGのタスクの文脈で調査されてきましたが、幻覚の根本的な原因は最新のLLMにとって特別な困難をもたらし、さらなる研究が必要です。

図1:LLMの幻覚を自然な形で示したイラスト

彼らの徹底的な調査は、LLMにおける幻覚の特定の原因に焦点を当てており、トレーニングやデータから推論フェーズまで、幅広い関連要素を扱っています。この枠組みの中で、不十分なソースや未活用のリソース、不十分なトレーニング戦略による事前トレーニングやアライメントの幻覚、および推論中の確率的デコーディング手法や不正確な表現に起因する幻覚など、データ関連の原因が考えられます。

さらに、彼らはLLMにおける幻覚を特定するための効率的な検出技術の詳細な説明と、LLMの幻覚の度合いを評価するためのベンチマークの包括的な概要を提供しています。また、幻覚の認識源を軽減するために設計された徹底的な戦術も提供しています。彼らは、この研究がLLMの分野をさらに発展させ、LLMの幻覚に関連する潜在的な利点と困難についての洞察を提供することを期待しています。この調査により、既存のLLMの欠点に対する理解が改善され、さらなる研究とより信頼性のある強力なLLMの作成に向けた重要な方向性も提供されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

機械学習

M42がMed42を導入:医療知識へのアクセス拡大のためのオープンアクセスクリニカル大規模言語モデル(LLM)

M42ヘルスは、アブダビ、UAEに拠点を置き、有望な新しいオープンアクセスの臨床大規模言語モデルであるMed42を発表しました。...

人工知能

シナプスCoR:革命的なアレンジでのChatGPT

新しいシステムプロンプトについて学び、カスタムの指示と併用して使用することで、ChatGPTをAutoGPTに変える方法を学びましょう

機械学習

CapPaに会ってください:DeepMindの画像キャプション戦略は、ビジョンプレトレーニングを革新し、スケーラビリティと学習性能でCLIPに匹敵しています

「Image Captioners Are Scalable Vision Learners Too」という最近の論文は、CapPaと呼ばれる興味深い手法を提示しています...

データサイエンス

「より良いMLシステムの構築-第4章 モデルの展開とその先」

モデルを展開し、その制作を支援することは、機械学習よりもエンジニアリングに関わります機械学習のプロジェクトが制作段階...