このAI研究は、質問応答の実行能力において、指示に従うモデルの正確さと忠実さを評価します

This AI research evaluates the accuracy and fidelity of models that follow instructions in terms of their question answering performance.

最近導入された大規模言語モデル(LLM)は、人工知能(AI)コミュニティを席巻しています。これらのモデルは、非常に優れた自然言語処理(NLP)、自然言語生成(NLG)、自然言語理解(NLU)を使用して、人間を成功裏に模倣することができました。LLMは、現実的な会話をするために人間を模倣し、簡単な質問や複雑な質問に答えること、コンテンツの生成、コードの補完、機械翻訳、テキストの要約などが可能です。NLPの目標は、コンピュータシステムが自然言語で与えられた命令を理解し、反応することを可能にすることで、人々がより自然で柔軟な方法でそれらと関わることを可能にすることです。その最良の例が命令に従うモデルです。

これらのモデルは、LLM、教師ありの例、または他のタイプの教示、および自然言語の命令として記述された数千のタスクにさらされることで訓練されます。最近の研究では、Mila Quebec AI Institute、McGill大学、Facebook CIFAR AI Chairのチームが、与えられたテキストパッセージの質問応答(QA)の実行能力を評価するための命令に従うモデルのパフォーマンスを調査しました。これらのモデルは、タスクを記述するプロンプト、質問、およびリトリーバーによって取得された関連するテキストパッセージを提供されると、質問に答えることができ、これらのモデルによって生成される応答は自然で情報豊かであり、ユーザーの信頼と関与の構築に役立ちます。

これらのモデルは、取得したドキュメントと命令のみを入力に追加することで、ユーザーのクエリに自然かつ流暢に応答することができます。しかし、この余分な冗長性により、完全一致(EM)やF1スコアなどの従来のQA評価指標がモデルのパフォーマンスを効果的に定量化するのが難しくなります。これは、モデルの応答が参照回答に直接記載されていない情報も含める可能性があるためですが、それでも正確であることが求められます。チームは、この問題を克服するために、命令に従うモデルを検索に基づいた品質保証(QA)で測定するための2つの基準を提供しています。

  1. 情報の必要性、正確性に関するもの:この次元は、モデルがユーザーの情報要件をどれだけ満たしているかを評価します。生成された応答が、直接的に参照回答に記載されていることを超えた関連情報を含んでいるかどうかに関心があります。
  1. 提供された情報に対する忠実度:この次元は、モデルが提示された知識に基づいて答えを根拠付ける能力を評価します。真のモデルは、関連しない情報が提示された場合には応答を控えるだけでなく、知識のスニペットにアクセスできる場合には正確な回答を提供するべきです。

著者たちは、オープンドメインQAのためのNatural Questions、マルチホップQAのためのHotpotQA、会話型QAのためのTopiOCQAという3つの異なるQAデータセットで、いくつかの最近の命令に従うモデルを評価しました。彼らは900のモデル応答を手動で分析し、正確性と忠実度の異なる自動評価指標と比較しました。その研究は、参照回答のトークンの一部がモデルの応答にも含まれている割合を測定する再現率が、EMやF1スコアなどの語彙の重複メトリックよりも正確性との相関が強いことを示唆しています。忠実度のための他のトークン重複メトリックと比較して、モデルの回答トークンの一部が知識スニペットに存在する割合であるK-Precisionは、人間の判断とより強い相関関係があります。

結論として、この研究は、命令に従うモデルのQAタスクにおけるより徹底的な評価を進め、その利点と欠点の両方を考慮に入れることを目指しています。チームは、自分たちのコードとデータをGitHubリポジトリで公開することで、この領域でのさらなる進歩を促進しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データサイエンティストには試してみるべきジェンAIプロンプト」

「データサイエンティストのためのGen AIの力を探求する以下には、データサイエンティストを支援するためのいくつかの必須のG...

機械学習

Google AIは、環境の多様性と報酬の指定の課題に対処するための、普遍的なポリシー(UniPi)を提案します

産業に関係なく、人々の生活の質を向上させるために、人工知能(AI)と機械学習(ML)技術は常に取り組んできました。最近のA...

機械学習

「AIプロジェクトはどのように異なるのか」

「私はよく見込み客から人工知能(AI)ソフトウェアのプロセスを説明するように求められます最近では、ソフトウェア開発とデ...

機械学習

「Lineが『japanese-large-lm』をオープンソース化:36億パラメータを持つ日本語言語モデル」

2020年11月以来、LINEは日本語に特化した先進的な大規模言語モデルの研究開発に取り組んできました。この旅の重要なマイルス...

機械学習

「ユナイテッド航空がコスト効率の高い光学文字認識アクティブラーニングパイプラインを構築した方法」

この記事では、ユナイテッド航空がAmazon Machine Learning Solutions Labとの協力で、AWS上にアクティブラーニングフレーム...

AIニュース

ロボット犬が世界記録を速度で打ち立てました

韓国先端科学技術院は、ギネス世界記録において、犬のような能力を備えた4足歩行ロボットの見事な創造力により認められました...