マイクロソフトAIがLLMLinguaを発表：大型言語モデル（LLM）の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

『Microsoft AIがLLMLinguaを発表：ユニークなクイック圧縮テクニックによる大型言語モデル（LLM）の高速推論とプロンプトの圧縮』

大規模言語モデル（LLM）は、その高い一般化能力と推論能力により、人工知能（AI）コミュニティを大きく押し上げています。これらのモデルは非常に優れた能力を持ち、自然言語処理（NLP）、自然言語生成（NLG）、コンピュータビジョンなどの能力を示しています。ただし、インコンテキスト学習（ICL）やチェーン・オブ・ソート（CoT）プロンプトなどの新しい展開は、数万トークン以上にも及ぶ長いプロンプトの展開を引き起こしています。これは、費用対効果と計算効率の観点からモデル推論に問題を提起しています。

これらの課題に対処するため、Microsoft Corporationの研究チームは、LLMLinguaというユニークな粗いから細かい圧縮技術を開発しました。LLMLinguaは、長いプロンプトの処理に関連する費用を最小限に抑え、モデルの推論を迅速化することを主な目的として開発されました。これを達成するために、LLMLinguaは以下のいくつかの重要な戦略を使用しています。

予算コントローラー：動的予算コントローラーを作成しました。これにより、圧縮比が元のプロンプトのさまざまな部分に均等に分配されるようになります。これにより、大きな圧縮比でもプロンプトの意味的な整合性が維持されます。

トークンレベルの反復圧縮アルゴリズム：トークンレベルの反復圧縮アルゴリズムがLLMLinguaに統合されています。この技術により、圧縮要素間の相互依存関係を捉えながら、プロンプトの重要な情報を維持したより高度な圧縮が可能となります。

指示チューニングベースのアプローチ：チームは、言語モデル間の分布の不整合問題に対処するために、指示チューニングベースのアプローチを提案しました。言語モデルの分布を整合させることで、迅速な圧縮に使用される小さな言語モデルと意図されたLLMの互換性が向上します。

チームは、LLMLinguaの有用性を検証するために、理論的なデータセットとしてGSM8KとBBHを、会話用データセットとしてShareGPTを、要約用データセットとしてArxiv-March23を使用して分析と実験を行いました。結果は、提案アプローチが各状況で最新技術のパフォーマンスを達成していることを示しました。結果は、圧縮比20倍までの大幅な圧縮を可能にする一方でパフォーマンスの面でわずかな犠牲を払いました。

実験で使用された小規模言語モデルはLLaMA-7Bであり、閉じたLLMはGPT-3.5-Turbo-0301でした。LLMLinguaは、推論、要約、議論のスキルを維持しながら最大圧縮比20倍でも従来の圧縮技術を上回り、弾力性、経済性、効率性、回復性を備えています。

LLMLinguaの効果は、さまざまな閉じたLLMと小規模言語モデルで観察されました。LLMLinguaは、GPT-2-smallを使用した場合には大きなモデルとほぼ同等のパフォーマンス結果を示しました。また、予想される迅速な結果を上回る強力なLLMでも成功を収めました。

LLMLinguaの回復性は、圧縮されたプロンプトを元に戻す際に重要な推論情報を効果的に取り出すことによって示されます。完全な9ステップのCoTプロンプトを復元するために使用されたGPT-4は、圧縮されたプロンプトの意味と類似を保ちながら重要な情報を取り戻しました。この機能により、LLMLinguaは回復性を保証し、翻訳後も重要な情報を保持し、LLMLingua全体の印象を高めています。

結論として、LLMLinguaはLLMアプリケーションにおける長いプロンプトによって引き起こされる困難に包括的な解決策を提供しました。この方法は優れたパフォーマンスを示し、LLMベースのアプリケーションの効果とコスト効率を向上させる有用な方法を提供しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceDeep learningEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

マイクロソフトAIがLLMLinguaを発表：大型言語モデル（LLM）の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

Was this article helpful?

開発者と企業は、Gemini Proで構築する時です

「QLoRAを使ってLlama 2を微調整し、AWS Inferentia2を使用してAmazon SageMakerに展開する」

機械学習

アマゾンの研究者がフォーチュナを紹介：ディープラーニングにおける不確実性量子化のためのAIライブラリ

「POCOと出会う：3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

KubernetesでのGenAIアプリケーションの展開：ステップバイステップガイド

楽しみと利益のために2023年にシンプルなAIアプリケーションを作る

「LLMsにおけるエンタープライズ知識グラフの役割」

HuggingFaceはTextEnvironmentsを紹介します：機械学習モデルと、モデルが特定のタスクを解決するために呼び出すことができる一連のツール（Python関数）の間のオーケストレーターです