このAI研究は、質問応答の実行能力において、指示に従うモデルの正確さと忠実さを評価します

This AI research evaluates the accuracy and fidelity of models that follow instructions in terms of their question answering performance.

最近導入された大規模言語モデル(LLM)は、人工知能(AI)コミュニティを席巻しています。これらのモデルは、非常に優れた自然言語処理(NLP)、自然言語生成(NLG)、自然言語理解(NLU)を使用して、人間を成功裏に模倣することができました。LLMは、現実的な会話をするために人間を模倣し、簡単な質問や複雑な質問に答えること、コンテンツの生成、コードの補完、機械翻訳、テキストの要約などが可能です。NLPの目標は、コンピュータシステムが自然言語で与えられた命令を理解し、反応することを可能にすることで、人々がより自然で柔軟な方法でそれらと関わることを可能にすることです。その最良の例が命令に従うモデルです。

これらのモデルは、LLM、教師ありの例、または他のタイプの教示、および自然言語の命令として記述された数千のタスクにさらされることで訓練されます。最近の研究では、Mila Quebec AI Institute、McGill大学、Facebook CIFAR AI Chairのチームが、与えられたテキストパッセージの質問応答(QA)の実行能力を評価するための命令に従うモデルのパフォーマンスを調査しました。これらのモデルは、タスクを記述するプロンプト、質問、およびリトリーバーによって取得された関連するテキストパッセージを提供されると、質問に答えることができ、これらのモデルによって生成される応答は自然で情報豊かであり、ユーザーの信頼と関与の構築に役立ちます。

これらのモデルは、取得したドキュメントと命令のみを入力に追加することで、ユーザーのクエリに自然かつ流暢に応答することができます。しかし、この余分な冗長性により、完全一致(EM)やF1スコアなどの従来のQA評価指標がモデルのパフォーマンスを効果的に定量化するのが難しくなります。これは、モデルの応答が参照回答に直接記載されていない情報も含める可能性があるためですが、それでも正確であることが求められます。チームは、この問題を克服するために、命令に従うモデルを検索に基づいた品質保証(QA)で測定するための2つの基準を提供しています。

  1. 情報の必要性、正確性に関するもの:この次元は、モデルがユーザーの情報要件をどれだけ満たしているかを評価します。生成された応答が、直接的に参照回答に記載されていることを超えた関連情報を含んでいるかどうかに関心があります。
  1. 提供された情報に対する忠実度:この次元は、モデルが提示された知識に基づいて答えを根拠付ける能力を評価します。真のモデルは、関連しない情報が提示された場合には応答を控えるだけでなく、知識のスニペットにアクセスできる場合には正確な回答を提供するべきです。

著者たちは、オープンドメインQAのためのNatural Questions、マルチホップQAのためのHotpotQA、会話型QAのためのTopiOCQAという3つの異なるQAデータセットで、いくつかの最近の命令に従うモデルを評価しました。彼らは900のモデル応答を手動で分析し、正確性と忠実度の異なる自動評価指標と比較しました。その研究は、参照回答のトークンの一部がモデルの応答にも含まれている割合を測定する再現率が、EMやF1スコアなどの語彙の重複メトリックよりも正確性との相関が強いことを示唆しています。忠実度のための他のトークン重複メトリックと比較して、モデルの回答トークンの一部が知識スニペットに存在する割合であるK-Precisionは、人間の判断とより強い相関関係があります。

結論として、この研究は、命令に従うモデルのQAタスクにおけるより徹底的な評価を進め、その利点と欠点の両方を考慮に入れることを目指しています。チームは、自分たちのコードとデータをGitHubリポジトリで公開することで、この領域でのさらなる進歩を促進しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

スタンフォードの研究者が提案する「EVAPORATE:言語モデルの推論コストを110倍削減する新しいAIアプローチ」

近年、大型言語モデルは常に注目を浴びています。彼らの非凡な能力と様々な分野での応用により、新しい研究論文やLLMの新しい...

データサイエンス

Google AIがAdaTapeを導入:トランスフォーマーベースのアーキテクチャを持ち、適応的なテープトークンを通じてニューラルネットワークでの動的な計算を可能にする新しいAIアプローチ

人間は、さまざまな状況や条件に応じて思考や反応を適応させる能力を持っていますが、ニューラルネットワークは固定された関...

機械学習

このMITのAI論文では、ロボット操作に革新的な方法を紹介しています:エンコードされた特徴フィールドとビジョン言語モデルによる2Dから3Dのギャップの橋渡し

MITとAIおよび基礎相互作用研究所(IAIFI)の研究チームは、ロボットの操作に革新的なフレームワークを紹介し、予測不可能な...

データサイエンス

テキストブック品質の合成データを使用して言語モデルをトレーニングする

マイクロソフトリサーチは、データの役割についての現在進行中の議論に新たな燃料を加える論文を発表しました具体的には、デ...

コンピュータサイエンス

次世代のコンピューティング:NVIDIAとAMDがAI、レンダリング、シミュレーションを加速する強力なワークステーションを提供します

プロフェッショナルがデスクトップからAIアプリケーションの構築と実行をできるようにするために、NVIDIAとAMDは新しいワーク...

人工知能

「KaggleのAIレポート2023で未来にダイブしよう - ホットなトレンドをチェックしよう」

「AIの世界について学んだことについて、世界最大のデータサイエンスと機械学習コミュニティに飛び込んでください」