「vLLMに会ってください:高速LLM推論とサービスのためのオープンソース機械学習ライブラリ」

vLLM Open-source ML library for fast LLM inference and services

大規模な言語モデル(LLM)は、プログラミングアシスタントやユニバーサルチャットボットなどの新しいアプリケーションを可能にするため、日常生活やキャリアにますます大きな影響を与えています。しかし、これらのアプリケーションの動作は、GPUなどの重要なハードウェアアクセラレータの要件による重要なコストがかかります。最近の研究によると、LLMのリクエストの処理は、従来のキーワード検索と比較して、10倍以上高価になることが示されています。そのため、LLMのサービングシステムのスループットを向上させ、リクエストごとの費用を最小限に抑える必要性が高まっています。

大規模な言語モデル(LLM)の高スループットなサービスを実行するには、一度に十分な数のリクエストをバッチ処理する必要があります。ただし、既存のシステムは支援が必要です。各リクエストのキーバリューキャッシュ(KVキャッシュ)メモリは非常に大きく、動的に成長および縮小する可能性があります。このメモリは慎重に管理する必要があります。効率的に管理されていない場合、断片化や冗長な重複により、このRAMを大幅に節約し、バッチサイズを減らすことができます。

研究者たちは、この問題の解決策として、オペレーティングシステムの伝統的な仮想メモリとページング技術に着想を得たアテンションアルゴリズム「PagedAttention」を提案しています。メモリの利用をさらに削減するために、研究者たちはvLLMも展開しています。このLLMサービスは、ほぼゼロのKVキャッシュメモリの無駄を生じず、リクエスト内およびリクエスト間でのKVキャッシュの柔軟な共有を提供します。

vLLMは、PagedAttentionを使用してアテンションキーとバリューを管理します。モデルアーキテクチャの変更を必要とせずに、HuggingFace Transformersよりも最大24倍のスループットを提供するvLLMは、LLMサービスの現在の最先端を再定義します。

従来のアテンションアルゴリズムとは異なり、PagedAttentionでは、連続したメモリ空間にキーと値を格納することができます。PagedAttentionは、各シーケンスのKVキャッシュをブロックに分割し、予め定められたトークンの数に対応するキーと値を含んでいます。これらのブロックは、アテンション計算中にPagedAttentionカーネルによって効率的に識別されます。ブロックは必ずしも連続する必要がないため、キーと値を柔軟に管理することができます。

PagedAttention内のシーケンスの最後のブロックのみでメモリリークが発生します。実際の使用では、これにより効果的なメモリ利用が可能となり、わずか4%の非効率性しか生じません。このメモリ効率の向上により、GPUの利用率を高めることができます。

また、PagedAttentionには効率的なメモリ共有のもう一つの利点があります。PagedAttentionのメモリ共有機能は、並列サンプリングやビームサーチなどのサンプリング技術に必要な追加メモリを大幅に削減します。これにより、メモリ利用率を最大55%削減しながら、スピードを最大2.2倍向上させることができます。この改善により、これらのサンプル技術は大規模言語モデル(LLM)サービスにおいて有用で効果的なものとなります。

研究者たちは、このシステムの精度を研究しました。彼らは、FasterTransformerやOrcaなどの最先端のシステムと同じ遅延時間で、vLLMが有名なLLMのスループットを2〜4倍増加させることを発見しました。より大きなモデル、より複雑なデコーディングアルゴリズム、およびより長いシーケンスは、より顕著な改善をもたらします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタ...

AI研究

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

“`html 最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それ...

機械学習

「研究:社会的に意識した時間的因果関係デコーダー推薦システム」

エルタイエブ・アフメド(リサーチエンジニア)とサブラジット・ロイ(シニアリサーチサイエンティスト)によるGoogle Resear...

データサイエンス

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェ...

人工知能

Midjourney v5.2の新しいズームアウト機能の使い方(最良の例)

Midjourney v5.2がリリースされ、期待を裏切りませんでしたズームアウト機能は素晴らしいです

人工知能

ウェブ開発者のためのAI:プロジェクトの紹介とセットアップ

この投稿では、Qwikを使用してウェブ開発プロジェクトをブートストラップし、OpenAIのAIツールを組み込む準備を整えます