このAI論文では、COVEメソッドを紹介しています自己検証を通じて言語モデルの幻覚に取り組むための革新的なAIアプローチです

言語モデルの幻覚に挑む革新的なAIアプローチ:COVEメソッドの自己検証を紹介する論文

大量のテキストドキュメントからなるコーパスは、大規模な言語モデル(LLM)を訓練するために使用され、モデルのパラメータ数が増えるにつれて、閉じられたブックQAなどのタスクのパフォーマンスが向上することが示されています。さらに、大きなモデルはより正確な事実の声明を生成できます。訓練コーパスでは比較的まれに現れる最大のモデルでも、よりよく知られていない胴体や尾の分布の事実では、失敗することがあります。モデルに欠陥がある場合、彼らは一般的に現実的に見える代替の回答を生成します。

単に未来の単語を予測するだけでなく、最近の言語モデリングの研究は、推論力にどれだけ優れているかに集中しています。自己批評を通じて最初に内部の思考や推論の連鎖を構築し、それから元の応答を変えることで、推論の課題でのパフォーマンスを向上させることができます。

Meta AIとETH Zurichの研究者は、この論文で提示された作業中の幻覚を軽減するために、言語モデルに基づいた推論がいつ、どのように適用されるかを調査しています。彼らは”Chain-of-Verification(CoVe)”という方法を作成し、初期のドラフト回答が与えられた場合、まずその効果を評価するために検証の質問を計画し、それからその質問に順番に答えて改善された回答を生成します。研究は、独立した検証の質問に提供される事実が通常は初期の長文応答よりも正確であることを示し、全体の回答の正確さを向上させています。

チームは、リストベースのクエリ、閉じられたブックQA、および長文コンテンツの作成を含むさまざまな活動について、この方法の変種を探求しています。基準の言語モデルの代わりに、彼らはまず左から右にフルな検証チェーンを作成する組み合わせた方法を提供し、パフォーマンスを向上させ、幻覚を減らす効果があります。一方、彼らの生成において現在の幻覚に意識を払うモデルは、頻繁に幻覚を繰り返します。

研究者は、状況に応じて検証チェーンのステージを最適化するために、要素分解の変種を導入しています。結果は、これらの要素分解の変種が検討対象の3つのタスクでさらなるパフォーマンスの向上を示しています。

チームはまた、検証質問に答える際にモデルが前回の回答に注意を払わないようにすること(分解CoVe)により、同じ幻覚を繰り返す可能性を減らすことを示しました。全体として、このアプローチは元の言語モデルの応答に比べて、同じモデルに自分自身について考えるように求めるだけで非常に優れたパフォーマンスの向上を提供します。検証実行ステップでの取得の拡張などのツールの適用能力をCoVeに与えることは、さらなる利点につながる、この研究の論理的な拡張です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LangChain:LLMがあなたのコードとやり取りできるようにします

生成モデルは皆の注目を集めています現在、多くのAIアプリケーションでは、機械学習の専門家ではなく、API呼び出しの実装方法...

データサイエンス

データサイエンスのプロフェッショナルにおすすめのトップ5のAIツール

イントロダクション 今日のデータ主導の世界では、データサイエンスは情報の活用とイノベーションにおいて重要な分野となって...

AIニュース

「AIで生成されたコードはさらにテストが必要ですか?」

「AIを搭載したツールを使用すれば、アプリケーションのプログラミングが簡単になりますしかし、人間によって書かれたコード...

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

AIニュース

「6人の女性が気候変動との戦いをリードしている」

「私たちは、気候科学のパイオニアであるユニス・ニュートン・フット博士と、女性が率いるGoogle.orgの6つの恩恵を受ける組織...

機械学習

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。...