ハギングフェイスTGIを使用した大規模言語モデルの展開
大規模言語モデルの展開には、ハギングフェイスTGIを使用します
Amazon SageMakerを使用してLLMを効率的にホストおよびスケールする別の方法
大規模言語モデル(LLMs)は、新しいモデルがほぼ毎週リリースされることで人気が高まっています。これらのモデルの数が増えるにつれて、ホストする方法も増えています。以前の記事では、Amazon SageMaker内でDJL Servingを利用してLLMを効率的にホストする方法を探索しました。この記事では、HuggingFace Text Generation Inference(TGI)という最適化されたモデルサーバーおよびソリューションを探索します。
注意:AWS初心者の方は、以下のリンクでアカウントを作成してください。この記事では、SageMakerのデプロイメントの中級レベルの理解を前提としています。デプロイメント/推論について詳しく理解するために、この記事に従うことをおすすめします。
免責事項:私はAWSの機械学習アーキテクトであり、私の意見は私自身のものです。
なぜHuggingFace Text Generation Inferenceを選ぶのか?Amazon SageMakerとの連携はどのように機能するのか?
TGIは、HuggingFaceが作成したRust、Python、gRPCモデルサーバーであり、特定の大規模言語モデルをホストするために使用することができます。HuggingFaceはNLPの中心的なハブであり、特にLLMsに関しては多くの最適化が含まれています。以下にいくつかの最適化の例と、詳細なリストのドキュメントを示します。
- 「最高のAI画像エンハンサーおよびアップスケーリングツール(2023年)」
- 「このように考えて私に答えてください:このAIアプローチは、大規模な言語モデルをガイドするためにアクティブなプロンプティングを使用します」
- 「革新的な機械学習モデルにより、脱炭素化触媒の評価時間が数カ月から数ミリ秒に短縮されました」
- 複数のGPUを跨いだ効率的なホスティングのためのテンソル並列処理
- SSEによるトークンストリーミング
- bitsandbytesによる量子化
- ロジットの変更(温度、top-k、top-nなどのパラメーターの異なる設定)
このソリューションの大きな利点の1つは、使用の簡単さです。TGIは現時点で以下の最適化されたモデルアーキテクチャをサポートしており、TGIコンテナを直接デプロイすることができます。
- BLOOM
- FLAN-T5
- Galactica
- GPT-Neox
- Llama
- OPT
- SantaCoder
- Starcoder
- Falcon 7B
- Falcon 40B
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「DAE Talking 高忠実度音声駆動の話し相手生成における拡散オートエンコーダー」
- 「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」
- このAI論文は、拡散モデルのコンセプトを自身の知識を使って消去するためのモデルの重みを微調整する新しい方法を提案しています
- このAI論文では、一般的なソース分布とターゲット分布の間の連続時間確率生成モデルの学習のための新しいクラスのシミュレーションフリーな目的を紹介しています
- 2023年の最高のオープンソースインテリジェンス(OSINT)ツール
- 「機械学習における特徴エンジニアリングへの実践的なアプローチ」
- 機械学習(ML)の実験トラッキングと管理のためのトップツール(2023年)