「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」
Explanation of the robustness and capabilities of LLM in performing well in long-form question answering by Salesforce researchers.
大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。
まだ解決されていない重要な問題の1つは、長文の質問応答(LFQA)です。これには多くの現実世界の応用(サポートフォーラム、トラブルシューティング、カスタマーサービスなど)があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。
Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM(Llama-7B、13Bなど)およびそれらの蒸留対応物(Alpaca-7B、13Bなど)の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています(生成された質問の複雑さとオープンソースLLMの応答品質)。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。
- 「UCSD研究者がオープンソース化したGraphologue:GPT-4のような大規模言語モデルの応答をリアルタイムでインタラクティブな図表に変換するユニークなAI技術」
- ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています
- 「マイクロソフトと清華大学によるこのAI研究は、EvoPromptという新しいAIフレームワークを紹介しますこのフレームワークは、LLMと進化アルゴリズムを接続するための自動的な離散プロンプト最適化を実現します」
この研究からの主な結論は次のとおりです:
• 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します(時間の20%以上)。
• 蒸留対応のLLM(Alpaca-7B、13B)は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。
• 要約から派生した質問に対して(16.8%以上)、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。
• Alpaca-7Bと13Bは、基本的なLLM(Llama)よりも長い文脈(1024トークン以上)に対してより敏感であり、通常は理にかなった応答を生成します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper」 ビジョン・トランスフォーマーにおけるReLU vs. Softmax:シーケンスの長さは重要か?Google DeepMindの研究論文からの洞察
- 東京大学の研究者たちは、攻撃者から機密性の高い人工知能(AI)ベースのアプリケーションを保護するための新しい技術を紹介しました
- 「MITの新しい機械学習の研究では、階層的な計画(HiP)のための組成的な基礎モデルを提案しています:長期的な課題の解決のために言語、ビジョン、行動を統合する」
- UCIと浙江大学の研究者は、ドラフティングと検証のステージを使用した自己推測デコーディングによるロスレスな大規模言語モデルの高速化を紹介しました
- 「挑戦的に、マイクロソフトの研究者はGPT-4に「人工知能の火花」を見つけたと述べる」
- 「ヌガットモデルを使用した研究論文の生成AI」
- 「研究者たちが、チップベースのサーミオニック冷却を量子コンピュータに応用可能にしました」