「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

Explanation of the robustness and capabilities of LLM in performing well in long-form question answering by Salesforce researchers.

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。

まだ解決されていない重要な問題の1つは、長文の質問応答(LFQA)です。これには多くの現実世界の応用(サポートフォーラム、トラブルシューティング、カスタマーサービスなど)があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。

Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM(Llama-7B、13Bなど)およびそれらの蒸留対応物(Alpaca-7B、13Bなど)の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています(生成された質問の複雑さとオープンソースLLMの応答品質)。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。

この研究からの主な結論は次のとおりです:

• 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します(時間の20%以上)。

• 蒸留対応のLLM(Alpaca-7B、13B)は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。

• 要約から派生した質問に対して(16.8%以上)、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。

• Alpaca-7Bと13Bは、基本的なLLM(Llama)よりも長い文脈(1024トークン以上)に対してより敏感であり、通常は理にかなった応答を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」

ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデ...

機械学習

「AIの問題を定義する方法」

「25年以上のソフトウェアエンジニアリングの経験を持っていますので、人工知能(AI)と機械学習を始めるソフトウェア開発者...

機械学習

「2023年に機械学習とコンピュータビジョンの進歩について最新情報を入手する方法」

学界や産業界で実践している機械学習やコンピュータビジョンの最近の進展に圧倒されていますか?YouTubeチャンネル、ニュース...

データサイエンス

分子の言語を学び、その特性を予測する

このAIシステムは、分子の特性を予測するためにわずかな量のデータしか必要としませんこれにより、薬物の発見や材料の開発を...

データサイエンス

「クラスの不均衡とオーバーサンプリング:形式的な紹介」

最近、私はJuliaでクラスの不均衡を解決するためのパッケージ、Imbalance.jlを作成しています論文を読んだり実装を見たりする...

AI研究

UC Berkeleyの研究者がゴーストバスターを導入:LLM生成テキストの検出のための最先端AIメソッド

ChatGPTは、さまざまなトピックにわたって、流暢なテキストを簡単に生成する能力を革新しました。しかし、実際にはどれほど優...