ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム

「ワシントン大学とデューク大学の研究者がPunicaを紹介:共有GPUクラスタでの複数のLoRAモデル提供を担当するAIシステム」

少ないトレーニングデータで特定のドメイン用の事前学習済みの大規模言語モデル(LLM)に特化するために、低ランク適応またはLoRAは人気を集めています。LoRAは、事前学習モデルの重みを保持し、Transformerアーキテクチャの各層に学習可能なランク分解行列を追加することで、学習可能なパラメーターの数を大幅に減らすため、テナントは最小限のコストでさまざまなLoRAモデルをトレーニングできます。 LoRAは現在、広く使用されているファインチューニングフレームワークの一部です。テナントの要求に応えるために、MLプロバイダーは同時に多くの特定のLoRAモデルを提供する必要があります。 LoRAモデルを個別にトレーニングしたかのように提供するだけでは、GPUリソースが無駄になります。

各LoRAモデルにはk GPUが必要である場合、n個の別々のLoRAモデルをサポートするためにk×n GPUが必要とされるでしょう。ただし、これは単純な方法であり、これらのLoRAモデル間の重みの相関性の可能性を無視しています。彼らは、複数の異なるLoRAモデルをサポートする効果的なシステムは、次の3つの設計原則に従う必要があると主張しています。(G1)GPUは高価で供給が少ないため、マルチテナントのLoRAサービングワークロードを少数のGPUに集中させてGPUの使用率を最大化する必要があります。 (G2)バッチ処理は、MLワークロードを組み合わせてパフォーマンスとGPUの使用率を向上させるための最善の方法の1つであることが以前の研究で指摘されています。ただし、要求が同じモデルに対して行われる場合にはバッチ処理のみを行っています。そのため、さまざまなLoRAモデルに対してバッチ処理を許可する必要があります。 (G3)モデルサービングのコストのほとんどは解読ステージに起因します。したがって、彼らはステージのパフォーマンスに集中する必要があります。他のより重要でないモデルサービングの構成要素に対しては、オンデマンドでLoRAモデルの重みを読み込むなど、簡単な方法を使用することができます。これらの3つの基準に基づいて、ワシントン大学とデューク大学の研究者が共有GPUクラスタ上のLoRAモデルのマルチテナントサービングフレームワークであるPunicaを開発しました。

セグメント化されたギャザーマトリックス-ベクトル乗算(SGMV)は、新しいCUDAカーネルの1つであり、複数の異なるLoRAモデルの同時実行によるバッチ処理GPU操作を可能にします。SGMVによって、GPUがメモリと計算の両方でGPUの効率を劇的に向上させるために、事前学習モデルのコピーの数を減らすことができます。この新しいCUDAカーネルとともに、システム最適化のためのいくつかの最先端の手法を組み合わせました。驚くべきことに、同じLoRAモデルをバッチ処理すると、他の異なるLoRAモデルをバッチ処理する場合とほとんどパフォーマンスの違いはありません。SGMVは、複数のLoRAモデルからのバッチリクエストを許可します。同時に、LoRAモデルのオンデマンド読み込みの遅延はわずか数ミリ秒です。

Punicaは、現在GPU上で実行中のLoRAモデルに制限されることなく、ユーザの要求をより少ないGPUグループに集約できるようになりました。 Punicaは、複数のテナントのタスクをアレンジするために次の2つの方法を使用します。 Punicaは、現在使用中の選択した一部のGPUグループに新しいリクエストを直接送信し、それらのGPUを最大限に利用します。 Punicaは、現在のGPUが完全に使用されるまで、さらなるGPUリソースを確保しません。 Punicaは、定期的にアクティブなリクエストを統合するために移動します。これにより、Punicaが割り当てられたGPUリソースを解放できるようになります。彼らは、NVIDIA A100 GPUクラスタでLlama2 7B、13B、および70Bモデルから派生したLoRAモデルを評価します。

Punicaは、トークンあたり2ミリ秒の遅延を追加し、同じGPUリソースで最先端のLLMサービングソリューションよりも12倍高いスループットを提供します。この論文の貢献は次のとおりです:

• さまざまなLoRAモデルへのバッチ処理リクエストの潜在能力を認識しました。

• 一度に多くのLoRAモデルを実行するために効果的なCUDAカーネルを作成して実装しました。• LoRA内の多数のテナントからのタスクを組み合わせるための革新的なスケジューリング技術を提供しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「AIレポート2023年」を解説する

アニュアルAIレポートは、人工知能の急速に進化する領域での明確さと方向性を提供する重要な基準として機能しますその包括的...

機械学習

このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスク...

コンピュータサイエンス

「日常生活における人工知能の役割に対する公衆の関心の高まり」

「AIへの関心の高まりは、Pewによると、成長する公衆の意識と並行して起こっています」

AI研究

「システムは光と電子を組み合わせて、より速く、より環境に優しいコンピューティングを実現します」

「Lightning(雷)」システムは、新しい抽象化を使用して、光子をコンピュータの電子部品に接続し、リアルタイムの機械学習推...

人工知能

「人工知能と自由意志」

人工知能の非凡な能力は今や明白です例えば、チェスをプレイするような特定のことは、AIがどんな人間よりも優れて行えますし...

AIニュース

「生成AIを使って、あらゆる感情に対応するWhatsAppステッカーを作成する」

未来に向けて大きな進歩を遂げる中、WhatsAppの親会社であるMetaは、人工知能(AI)の世界に飛び込んでいます。最新の話題に...