「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか？Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

Explanation of the robustness and capabilities of LLM in performing well in long-form question answering by Salesforce researchers.

大規模な言語モデル（LLM）であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。

まだ解決されていない重要な問題の1つは、長文の質問応答（LFQA）です。これには多くの現実世界の応用（サポートフォーラム、トラブルシューティング、カスタマーサービスなど）があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。

Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM（Llama-7B、13Bなど）およびそれらの蒸留対応物（Alpaca-7B、13Bなど）の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています（生成された質問の複雑さとオープンソースLLMの応答品質）。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。

この研究からの主な結論は次のとおりです：

• 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します（時間の20％以上）。

• 蒸留対応のLLM（Alpaca-7B、13B）は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。

• 要約から派生した質問に対して（16.8％以上）、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。

• Alpaca-7Bと13Bは、基本的なLLM（Llama）よりも長い文脈（1024トークン以上）に対してより敏感であり、通常は理にかなった応答を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか？Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

Was this article helpful?

「UCSD研究者がオープンソース化したGraphologue：GPT-4のような大規模言語モデルの応答をリアルタイムでインタラクティブな図表に変換するユニークなAI技術」

デシAIは、DeciDiffusion 1.0を公開しました：820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

AI研究

『チャットボットは実際に認識されるよりも頻繁に「幻覚」を見るかもしれない』

「Mini-DALLE3と出会おう：大規模な言語モデルによるテキストから画像へのインタラクティブアプローチ」

「GPTBotの公開：OpenAIがウェブのクロールに踏み出す大胆な一手」

スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています

PIDを使用したバイナリツリーを用いた衝突しない乱数の生成

GGMLとllama.cppを使用してLlamaモデルを量子化する