UCバークレーとスタンフォードの研究者チームがS-LoRAを発表:多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム

「UCバークレーとスタンフォードの研究者チームがS-LoRAを発表!多数のLoRAアダプターを効率的に提供するために設計されたAIシステム」

UC BerkeleyおよびStanfordの研究者チームは、LLMの展開において新たなパラメータ効率の良いファインチューニング手法であるLow-Rank Adaptation (LoRA)を開発しました。S-LoRAは、多数のLoRAアダプターの効率的な展開を可能にするために設計されました。S-LoRAは、単一のGPU上または複数のGPU上で数千のアダプターを最小限のオーバヘッドで実行できるようにします。この手法は統合ページングを導入し、GPUメモリの使用を最適化し、新しいテンソル並列処理と異種バッチ処理のためのカスタムCUDAカーネルを利用します。これらの技術により、実世界のアプリケーションでのLLMの展開における計算要件が大幅に削減されます。

LoRAは、事前学習されたLLMを新しいタスクにカスタマイズするための非常に効率的なファインチューニング手法であり、高い精度を保ちながら学習可能なパラメータの数を劇的に減らします。LLMに対するLoRAの採用は広範であり、無数のLoRAアダプターがLLMや拡散モデルのために作成されています。現代のアプリケーションでは、LLMが様々なドメインとタスクに対応して普及しています。

現代のアプリケーションでは、LLMが広範に活用されており、事前学習後のファインチューニング手法により、特定のタスクやドメインにカスタマイズされた1つの基本LLMの複数のファインチューニングバージョンが作成されています。LoRAは、高い精度を維持しながら学習可能なパラメータの数を大幅に減らすことで、事前学習されたLLMを新しいタスクに合わせたファインチューニング手法です。

S-LoRAは、広範なタスクに対して基本モデルを効率的にファインチューニングし、1つのモデルから多数のLoRAアダプターを生成するためにLoRAを活用します。Unified Pagingを導入し、統一メモリプール内で動的なアダプターウェイトとKVキャッシュテンソルを管理することで、GPUメモリの使用を最適化します。S-LoRAは、最小限のオーバヘッドで数千のLoRAアダプターを提供することができます。この手法はスループットを4倍向上させ、HuggingFace PEFTやvLLMなどの主要なライブラリと比較してサポートされるアダプターの数を大幅に拡大することができます。

S-LoRAは最小限のオーバヘッドで2,000のアダプターを同時に処理し、低い計算コストを維持します。1つのアダプターに対してvLLM-packedと比較して最大4倍、PEFTと比較して最大30倍のパフォーマンスを発揮し、大幅なアダプター数をサポートします。S-LoRAは、スループットとレイテンシーにおいて、S-LoRA-bmmとS-LoRA-no-unifymemを上回り、メモリプールとカスタムカーネルの効果を強調しています。このシステムのスケーラビリティは、利用可能なメインメモリによって主に制限されており、実世界のワークロードに対して堅牢なパフォーマンスを実現しています。S-LoRAの素晴らしい能力により、さまざまなタスクに大規模な言語モデルを適応するための強力なソリューションとなります。

この研究は、量子化、疎化、およびモデルアーキテクチャの改善などの最適化手法を調査することでパフォーマンスを向上させることを目的としています。基本モデルとアダプターの両方に分解計算技術を実装し、強化されたサポートのためのカスタムCUDAカーネルの開発も検討しています。また、LLMの提供における自己回帰的な特徴とパラメータ効率の良いアダプターへの取り組みも含まれており、現在のモデル提供システムにおける最適化のギャップを特定し、埋めることを目指しています。

まとめとして、S-LoRAはメモリの断片化に対抗するために統合ページングを導入し、バッチサイズの増加とスケーラビリティの向上を実現しました。この研究では、従来未踏のスケールでのファインチューニングバリアントの提供という課題に対処したスケーラブルなLoRAの提供ソリューションを紹介しています。量子化、疎化、モデルアーキテクチャのようなアルゴリズム技術によるLoRAの提供の最適化も行われ、システムレベルの改善を補完しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

LLMのトレーニングの異なる方法

大規模言語モデル(LLM)の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが...

機械学習

「GPTモデルの信頼性に関する詳細な分析」

最近のグローバルな世論調査では、半数以上の回答者が、この新興技術を金融計画や医療ガイダンスなどの機密性の高い分野に利...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

機械学習

『DiffBIRを紹介:事前学習済みのテキストから画像への拡散モデルを使用して、盲目的な画像修復問題に対処するAIアプローチ』

人工知能の分野での重要な進歩により、自然言語処理、自然言語理解、コンピュータビジョンなどのAIのサブフィールドも急速に...

機械学習

大規模な言語モデルを使用した自律型の視覚情報検索

Posted by Ziniu Hu, Student Researcher, and Alireza Fathi, Research Scientist, Google Research, Perception Team 大規...