UCバークレーとスタンフォードの研究者チームがS-LoRAを発表:多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム

「UCバークレーとスタンフォードの研究者チームがS-LoRAを発表!多数のLoRAアダプターを効率的に提供するために設計されたAIシステム」

UC BerkeleyおよびStanfordの研究者チームは、LLMの展開において新たなパラメータ効率の良いファインチューニング手法であるLow-Rank Adaptation (LoRA)を開発しました。S-LoRAは、多数のLoRAアダプターの効率的な展開を可能にするために設計されました。S-LoRAは、単一のGPU上または複数のGPU上で数千のアダプターを最小限のオーバヘッドで実行できるようにします。この手法は統合ページングを導入し、GPUメモリの使用を最適化し、新しいテンソル並列処理と異種バッチ処理のためのカスタムCUDAカーネルを利用します。これらの技術により、実世界のアプリケーションでのLLMの展開における計算要件が大幅に削減されます。

LoRAは、事前学習されたLLMを新しいタスクにカスタマイズするための非常に効率的なファインチューニング手法であり、高い精度を保ちながら学習可能なパラメータの数を劇的に減らします。LLMに対するLoRAの採用は広範であり、無数のLoRAアダプターがLLMや拡散モデルのために作成されています。現代のアプリケーションでは、LLMが様々なドメインとタスクに対応して普及しています。

現代のアプリケーションでは、LLMが広範に活用されており、事前学習後のファインチューニング手法により、特定のタスクやドメインにカスタマイズされた1つの基本LLMの複数のファインチューニングバージョンが作成されています。LoRAは、高い精度を維持しながら学習可能なパラメータの数を大幅に減らすことで、事前学習されたLLMを新しいタスクに合わせたファインチューニング手法です。

S-LoRAは、広範なタスクに対して基本モデルを効率的にファインチューニングし、1つのモデルから多数のLoRAアダプターを生成するためにLoRAを活用します。Unified Pagingを導入し、統一メモリプール内で動的なアダプターウェイトとKVキャッシュテンソルを管理することで、GPUメモリの使用を最適化します。S-LoRAは、最小限のオーバヘッドで数千のLoRAアダプターを提供することができます。この手法はスループットを4倍向上させ、HuggingFace PEFTやvLLMなどの主要なライブラリと比較してサポートされるアダプターの数を大幅に拡大することができます。

S-LoRAは最小限のオーバヘッドで2,000のアダプターを同時に処理し、低い計算コストを維持します。1つのアダプターに対してvLLM-packedと比較して最大4倍、PEFTと比較して最大30倍のパフォーマンスを発揮し、大幅なアダプター数をサポートします。S-LoRAは、スループットとレイテンシーにおいて、S-LoRA-bmmとS-LoRA-no-unifymemを上回り、メモリプールとカスタムカーネルの効果を強調しています。このシステムのスケーラビリティは、利用可能なメインメモリによって主に制限されており、実世界のワークロードに対して堅牢なパフォーマンスを実現しています。S-LoRAの素晴らしい能力により、さまざまなタスクに大規模な言語モデルを適応するための強力なソリューションとなります。

この研究は、量子化、疎化、およびモデルアーキテクチャの改善などの最適化手法を調査することでパフォーマンスを向上させることを目的としています。基本モデルとアダプターの両方に分解計算技術を実装し、強化されたサポートのためのカスタムCUDAカーネルの開発も検討しています。また、LLMの提供における自己回帰的な特徴とパラメータ効率の良いアダプターへの取り組みも含まれており、現在のモデル提供システムにおける最適化のギャップを特定し、埋めることを目指しています。

まとめとして、S-LoRAはメモリの断片化に対抗するために統合ページングを導入し、バッチサイズの増加とスケーラビリティの向上を実現しました。この研究では、従来未踏のスケールでのファインチューニングバリアントの提供という課題に対処したスケーラブルなLoRAの提供ソリューションを紹介しています。量子化、疎化、モデルアーキテクチャのようなアルゴリズム技術によるLoRAの提供の最適化も行われ、システムレベルの改善を補完しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ラストマイルAIは、AiConfigをリリースしました:オープンソースの構成駆動型、ソースコントロールに対応したAIアプリケーション開発フレームワーク

AIアプリケーション開発の進化する風景の中で、AI Configは、LastMile Ai から登場し、開発者がAIモデルを統合し、管理する方...

機械学習

このAI論文は、自律言語エージェントのためのオープンソースのPythonフレームワークである「Agents」を紹介しています

カスタマーサービス、コンサルティング、プログラミング、執筆、教育などのタスクでは、言語エージェントは人間の労力を削減...

データサイエンス

「AIおよび自動化により、2030年に存在しなくなるであろう6つのテクノロジージョブ」

「現在の進行方向に基づいて、バランスを保っているいくつかのテック系の職種をご紹介します」

機械学習

GPUマシンの構築 vs GPUクラウドの利用

この記事では、コスト、パフォーマンス、運用、スケーラビリティなどの要素を分析し、深層学習や人工知能を用いたプロジェク...

データサイエンス

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業...

機械学習

OpenAIのChatGPTが音声と画像の機能を発表:AI対話における革命的な飛躍

オープンAIは、AIとの人間の対話を革新するために、ChatGPTに音声と画像の機能を導入することで、大きな進化を遂げようとして...