「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

Explanation of the robustness and capabilities of LLM in performing well in long-form question answering by Salesforce researchers.

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。

まだ解決されていない重要な問題の1つは、長文の質問応答(LFQA)です。これには多くの現実世界の応用(サポートフォーラム、トラブルシューティング、カスタマーサービスなど)があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。

Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM(Llama-7B、13Bなど)およびそれらの蒸留対応物(Alpaca-7B、13Bなど)の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています(生成された質問の複雑さとオープンソースLLMの応答品質)。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。

この研究からの主な結論は次のとおりです:

• 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します(時間の20%以上)。

• 蒸留対応のLLM(Alpaca-7B、13B)は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。

• 要約から派生した質問に対して(16.8%以上)、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。

• Alpaca-7Bと13Bは、基本的なLLM(Llama)よりも長い文脈(1024トークン以上)に対してより敏感であり、通常は理にかなった応答を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

コーディングなしで独自のLLMをトレーニングする

イントロダクション 生成AIは、私たちがテクノロジーとコンテンツの生成方法を革新するという魅力的な分野で、世界中で大きな...

AI研究

MIT研究者が高度なニューラルネットワークモデルを用いて、脳の聴覚接続に関する新たな知見を明らかにする

MAT研究者たちは、革新的な研究で、深層ニューラルネットワークの領域に進出し、人間の聴覚システムの謎を解き明かすことを目...

機械学習

このAI論文では、大規模言語モデルでの関連しない行動について探求されています:“シミュレートされた株式取引におけるGPT-4の欺瞞的な戦略”

一部の高度なAIシステムが戦略的な欺瞞を行う可能性について懸念が出ています。AIシステムの安全性を評価することに特化したA...

機械学習

このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対...

機械学習

AI/MLを活用してインテリジェントなサプライチェーンを構築するための始め方

「異なる供給チェーンの要素に対するAI/MLの使用事例と価値提案:計画、調達、製造、配送、逆物流」

データサイエンス

「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素で...