ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム
「ワシントン大学とデューク大学の研究者がPunicaを紹介:共有GPUクラスタでの複数のLoRAモデル提供を担当するAIシステム」
少ないトレーニングデータで特定のドメイン用の事前学習済みの大規模言語モデル(LLM)に特化するために、低ランク適応またはLoRAは人気を集めています。LoRAは、事前学習モデルの重みを保持し、Transformerアーキテクチャの各層に学習可能なランク分解行列を追加することで、学習可能なパラメーターの数を大幅に減らすため、テナントは最小限のコストでさまざまなLoRAモデルをトレーニングできます。 LoRAは現在、広く使用されているファインチューニングフレームワークの一部です。テナントの要求に応えるために、MLプロバイダーは同時に多くの特定のLoRAモデルを提供する必要があります。 LoRAモデルを個別にトレーニングしたかのように提供するだけでは、GPUリソースが無駄になります。
各LoRAモデルにはk GPUが必要である場合、n個の別々のLoRAモデルをサポートするためにk×n GPUが必要とされるでしょう。ただし、これは単純な方法であり、これらのLoRAモデル間の重みの相関性の可能性を無視しています。彼らは、複数の異なるLoRAモデルをサポートする効果的なシステムは、次の3つの設計原則に従う必要があると主張しています。(G1)GPUは高価で供給が少ないため、マルチテナントのLoRAサービングワークロードを少数のGPUに集中させてGPUの使用率を最大化する必要があります。 (G2)バッチ処理は、MLワークロードを組み合わせてパフォーマンスとGPUの使用率を向上させるための最善の方法の1つであることが以前の研究で指摘されています。ただし、要求が同じモデルに対して行われる場合にはバッチ処理のみを行っています。そのため、さまざまなLoRAモデルに対してバッチ処理を許可する必要があります。 (G3)モデルサービングのコストのほとんどは解読ステージに起因します。したがって、彼らはステージのパフォーマンスに集中する必要があります。他のより重要でないモデルサービングの構成要素に対しては、オンデマンドでLoRAモデルの重みを読み込むなど、簡単な方法を使用することができます。これらの3つの基準に基づいて、ワシントン大学とデューク大学の研究者が共有GPUクラスタ上のLoRAモデルのマルチテナントサービングフレームワークであるPunicaを開発しました。
セグメント化されたギャザーマトリックス-ベクトル乗算(SGMV)は、新しいCUDAカーネルの1つであり、複数の異なるLoRAモデルの同時実行によるバッチ処理GPU操作を可能にします。SGMVによって、GPUがメモリと計算の両方でGPUの効率を劇的に向上させるために、事前学習モデルのコピーの数を減らすことができます。この新しいCUDAカーネルとともに、システム最適化のためのいくつかの最先端の手法を組み合わせました。驚くべきことに、同じLoRAモデルをバッチ処理すると、他の異なるLoRAモデルをバッチ処理する場合とほとんどパフォーマンスの違いはありません。SGMVは、複数のLoRAモデルからのバッチリクエストを許可します。同時に、LoRAモデルのオンデマンド読み込みの遅延はわずか数ミリ秒です。
- 中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました
- オープンAIのCEOであるサム・アルトマン氏が解任されました
- アマゾンの研究者が提案するKD-Boost:リアルタイムセマンティックマッチングのための新しい知識蒸留アルゴリズム
Punicaは、現在GPU上で実行中のLoRAモデルに制限されることなく、ユーザの要求をより少ないGPUグループに集約できるようになりました。 Punicaは、複数のテナントのタスクをアレンジするために次の2つの方法を使用します。 Punicaは、現在使用中の選択した一部のGPUグループに新しいリクエストを直接送信し、それらのGPUを最大限に利用します。 Punicaは、現在のGPUが完全に使用されるまで、さらなるGPUリソースを確保しません。 Punicaは、定期的にアクティブなリクエストを統合するために移動します。これにより、Punicaが割り当てられたGPUリソースを解放できるようになります。彼らは、NVIDIA A100 GPUクラスタでLlama2 7B、13B、および70Bモデルから派生したLoRAモデルを評価します。
Punicaは、トークンあたり2ミリ秒の遅延を追加し、同じGPUリソースで最先端のLLMサービングソリューションよりも12倍高いスループットを提供します。この論文の貢献は次のとおりです:
• さまざまなLoRAモデルへのバッチ処理リクエストの潜在能力を認識しました。
• 一度に多くのLoRAモデルを実行するために効果的なCUDAカーネルを作成して実装しました。• LoRA内の多数のテナントからのタスクを組み合わせるための革新的なスケジューリング技術を提供しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」
- このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています
- 「UCLA研究者が「Rephrase and Respond」(RaR)を導入、LLMsの人間の質問理解を向上させる新しい人工知能手法を紹介」
- この中国のAI研究は、最新のSOTAビジュアル言語モデルGPT-4V(ision)の詳細な評価と自動運転シナリオへの応用を提供しています
- AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです
- 研究者たちは、より優れた熱管理のために固体熱トランジスタを開発しました
- 「オックスフォード大学と西安交通大学の研究者たちが、先端メモリ技術での相変化材料のシミュレーションに向けた革新的な機械学習モデルを発表」