「FACTOOLにご紹介いたします:大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実エラーを検出するためのタスクとドメインに依存しないフレームワーク」

FACTOOL A domain-independent framework for detecting factual errors in text generated by large-scale language models (e.g., ChatGPT).

GPT-4は、自然言語処理のいくつかのタスクを1つのシーケンス生成問題に統合した生成型の人工知能(AI)技術の一例です。この統合アーキテクチャは、優れた効率性と対話性を備えており、自然言語インターフェースを使用してコード生成、数学の問題解決、科学論文の作成などのさまざまな活動を実行することができます。ただし、このような生成型のパラダイムには特定の困難もあります。大規模言語モデル(LLM)の制約により、自動生成されたテキストはしばしばエラーや真実からの逸脱を示します。

LLMは説得力のある情報を作成する傾向がありますが、その事実についてはより正確で正確である必要があるかもしれません。この制約により、医療、金融、法律などの高いリスクを伴うさまざまな産業で生成型AIの使用が制限されます。したがって、生成された材料の有用性と信頼性を向上させるために、これらの誤りを体系的に特定することが重要です。たとえば、品質保証のための取得増強検証モデル、テキスト要約のための幻覚検出モデル、およびコードの実行に対する評価モデルなど、機械学習モデルによって生成される事実の誤りを検出および軽減するための現在の文献の焦点となっている特定のタスクがあります。

LLMが処理する活動とドメインの柔軟性の高さを考慮すると、これらのアプローチはそれぞれの分野で成功を収めています。ただし、同様に適応性のあるより包括的な事実性の検出および検証フレームワークも必要です。また、事実性の検出の問題は、現在の文献では次のいずれかの形で簡約されることがしばしばあります。すなわち、(i) 主張が与えられた場合に主張が事実的に正確であるかを評価すること、または(ii) 生成された主張が与えられた証拠によってサポートされているかを検出することです。

生成型モデル(ChatGPTなど)と関わる際にユーザーが頻繁に行う執筆タスクでは、明示的な主張や証拠がない長文生成の事実性を評価する必要があります。本研究では、上海交通大学、カーネギーメロン大学、香港城市大学、ニューヨーク大学、Meta AI、香港科技大学、上海人工知能研究所の研究者がFACTOOLを提案しています。FACTOOLは、LLMによって生成されたドキュメントの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークです。利用可能なデータを考慮して、コンテンツの事実性を評価するために、LLMの批判的思考能力を使用します。彼らはベンチマークを作成し、以下の4つのタスクについて実験を行っています:

  • 知識ベースの品質保証
  • コードの生成
  • 数学の問題解決
  • 科学文献レビューの執筆

彼らは事実性の識別の仕事に取り組み、最新の生成型AIモデルをより包括的に監査するためにそれを拡張します。さまざまなドメインと活動にわたる事実性の識別のための統一かつ適応可能なフレームワークを提供するために、「ツールの使用」と「事実性の検出」を統合しています。FACTOOLを使用して現代のチャットボットの事実性を分析すると、GPT-4がほとんどの状況で最も高い事実性を持っていることがわかります。KBベースの品質保証テストでは、緻密に調整されたチャットボット(Vicuna-13B)が立派な事実性を持っていることが示されます。ただし、科学文献レビューや算術問題の解答など、より難しいタスクには苦労しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ChatGPTを使用してAI幻覚を回避する方法」

「AI幻覚」は、ChatGPTの文脈でしばしば言及されますこの記事では、AI幻覚を100%完全に排除する方法を説明しています

AIテクノロジー

ウェブサイトのためにChatGPTに適切なテクニカルテキストを書かせる方法

「長いテキストを書くように依頼しないでくださいできるだけ多くの詳細と仕様を提供し、適切な言語を使用し、AIディテクター...

AIニュース

「AIによるPaytmによるインド経済の保護:金融セキュリティの革新」

インドの金融セクターの景観を再定義する画期的な動きとして、Paytmという有名ブランドの親会社であるOne 97 Communications ...

データサイエンス

「AIコントロールを手にして、サイバーセキュリティシステムに挑戦しましょう」

あなたの組織のデータは、サイバー犯罪者の悪意のある行為に対して免疫を持っていますか?そうでなければ、弱い防御システム...

AIニュース

「マイクロソフト、Windows上でのCortanaの終了を発表」

マイクロソフトは重要な動きとして、WindowsでのCortanaのサポート終了を宣言しました。この発表は、Windows Centralによって...

機械学習

「ReactJSとChatGPT:ウェブアプリに対話型AIを構築する方法」

Kono burogu de wa, ChatGPT o ReactJS apurikēshon ni tōgō suru koto no kanōsei to riten, soshite sore o okonau hōhō ni...