ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム

「ワシントン大学とデューク大学の研究者がPunicaを紹介:共有GPUクラスタでの複数のLoRAモデル提供を担当するAIシステム」

少ないトレーニングデータで特定のドメイン用の事前学習済みの大規模言語モデル(LLM)に特化するために、低ランク適応またはLoRAは人気を集めています。LoRAは、事前学習モデルの重みを保持し、Transformerアーキテクチャの各層に学習可能なランク分解行列を追加することで、学習可能なパラメーターの数を大幅に減らすため、テナントは最小限のコストでさまざまなLoRAモデルをトレーニングできます。 LoRAは現在、広く使用されているファインチューニングフレームワークの一部です。テナントの要求に応えるために、MLプロバイダーは同時に多くの特定のLoRAモデルを提供する必要があります。 LoRAモデルを個別にトレーニングしたかのように提供するだけでは、GPUリソースが無駄になります。

各LoRAモデルにはk GPUが必要である場合、n個の別々のLoRAモデルをサポートするためにk×n GPUが必要とされるでしょう。ただし、これは単純な方法であり、これらのLoRAモデル間の重みの相関性の可能性を無視しています。彼らは、複数の異なるLoRAモデルをサポートする効果的なシステムは、次の3つの設計原則に従う必要があると主張しています。(G1)GPUは高価で供給が少ないため、マルチテナントのLoRAサービングワークロードを少数のGPUに集中させてGPUの使用率を最大化する必要があります。 (G2)バッチ処理は、MLワークロードを組み合わせてパフォーマンスとGPUの使用率を向上させるための最善の方法の1つであることが以前の研究で指摘されています。ただし、要求が同じモデルに対して行われる場合にはバッチ処理のみを行っています。そのため、さまざまなLoRAモデルに対してバッチ処理を許可する必要があります。 (G3)モデルサービングのコストのほとんどは解読ステージに起因します。したがって、彼らはステージのパフォーマンスに集中する必要があります。他のより重要でないモデルサービングの構成要素に対しては、オンデマンドでLoRAモデルの重みを読み込むなど、簡単な方法を使用することができます。これらの3つの基準に基づいて、ワシントン大学とデューク大学の研究者が共有GPUクラスタ上のLoRAモデルのマルチテナントサービングフレームワークであるPunicaを開発しました。

セグメント化されたギャザーマトリックス-ベクトル乗算(SGMV)は、新しいCUDAカーネルの1つであり、複数の異なるLoRAモデルの同時実行によるバッチ処理GPU操作を可能にします。SGMVによって、GPUがメモリと計算の両方でGPUの効率を劇的に向上させるために、事前学習モデルのコピーの数を減らすことができます。この新しいCUDAカーネルとともに、システム最適化のためのいくつかの最先端の手法を組み合わせました。驚くべきことに、同じLoRAモデルをバッチ処理すると、他の異なるLoRAモデルをバッチ処理する場合とほとんどパフォーマンスの違いはありません。SGMVは、複数のLoRAモデルからのバッチリクエストを許可します。同時に、LoRAモデルのオンデマンド読み込みの遅延はわずか数ミリ秒です。

Punicaは、現在GPU上で実行中のLoRAモデルに制限されることなく、ユーザの要求をより少ないGPUグループに集約できるようになりました。 Punicaは、複数のテナントのタスクをアレンジするために次の2つの方法を使用します。 Punicaは、現在使用中の選択した一部のGPUグループに新しいリクエストを直接送信し、それらのGPUを最大限に利用します。 Punicaは、現在のGPUが完全に使用されるまで、さらなるGPUリソースを確保しません。 Punicaは、定期的にアクティブなリクエストを統合するために移動します。これにより、Punicaが割り当てられたGPUリソースを解放できるようになります。彼らは、NVIDIA A100 GPUクラスタでLlama2 7B、13B、および70Bモデルから派生したLoRAモデルを評価します。

Punicaは、トークンあたり2ミリ秒の遅延を追加し、同じGPUリソースで最先端のLLMサービングソリューションよりも12倍高いスループットを提供します。この論文の貢献は次のとおりです:

• さまざまなLoRAモデルへのバッチ処理リクエストの潜在能力を認識しました。

• 一度に多くのLoRAモデルを実行するために効果的なCUDAカーネルを作成して実装しました。• LoRA内の多数のテナントからのタスクを組み合わせるための革新的なスケジューリング技術を提供しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

仮想現実における人間の動作認識の進展:本AI論文では、LKA-GCNというスケルトン大カーネルアテンションを導入して、非の打ちどころのないパフォーマンスを実現します

スケルトンベースの人間のアクション認識は、ビデオデータからスケルトンの関節位置を分析して人間のアクションを識別するコ...

機械学習

メタAIがNougatをリリース:科学文書を処理するためのOCRを実行するビジュアルトランスフォーマーモデルで、マークアップ言語に変換します

人工知能の発展とともに、そのサブフィールドである自然言語処理、自然言語生成、コンピュータビジョンなどは、広範なユース...

AI研究

UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価:人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする

GPT-4はUCSDの研究者グループによってインターネット上の一般的なチューリングテストで試験されました。最も優れたGPT-4のプ...

AI研究

一般的な世界モデル:ランウェイAI研究が新しい長期研究の取り組みを開始

ワールドモデルは、環境の内部理解を構築し、その知識を利用してその空間内の将来のイベントを予測することを目指すAIシステ...

機械学習

「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」

2D画像を3Dオブジェクトに変換することは、テキストから3D生成のために困難なタスクです。これは、2D拡散モデルがビューに関...

データサイエンス

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大...