「GPU インスタンスに裏打ちされた SageMaker マルチモデルエンドポイントを利用して、数百の NLP モデルをホストします」

Using SageMaker multi-model endpoints backed by GPU instances to host hundreds of NLP models.

Amazon SageMakerとTriton Inference Serverの統合

Unsplashからの画像

過去には、SageMaker Multi-Model Endpoints(MME)を使用して、複数のモデルを単一のエンドポイントにホストするコスト効率の高いオプションを探求しました。小さなモデルをCPUベースのインスタンスでホストすることは可能ですが、これらのモデルが大きく、より複雑な場合にはGPUコンピューティングが必要になることもあります。

MMEをバックエンドとするGPUベースのインスタンスは、この記事で紹介するSageMaker Inferenceの特定の機能であり、単一のエンドポイントに数百のNLPモデルを効率的にホストする方法を示します。なお、この記事の執筆時点では、SageMakerのMME GPUは以下の単一のGPUベースのインスタンスファミリーをサポートしています:p2、p3、g4dn、およびg5。

MME GPUは現在、以下の2つのモデルサービングスタックによっても駆動しています:

  1. Nvidia Triton Inference Server
  2. TorchServe

この記事では、PyTorchバックエンドを使用したTriton Inference Serverを利用して、GPUインスタンス上でBERTベースのモデルをホストします。Tritonについて初めての方は、こちらの初心者向け記事を参照することをおすすめします。

注意:この記事は、SageMaker Deploymentおよびリアルタイム推論の中級者レベルの理解を前提としています。Deployment/Inferenceについてより詳しく理解するためには、この記事を参照してください。また、Multi-Model Endpointsについても概説しますが、さらに理解するためにはこのドキュメントを参照してください。

免責事項:私はAWSの機械学習アーキテクトであり、ここに述べる意見は私自身のものです。

MMEとは?ソリューションの概要

なぜMulti-Model Endpointsを使用し、いつ使用するのでしょうか?MMEはコストと管理の効率的なホスティングオプションです。従来のSageMakerエンドポイントのセットアップは以下のようになります:

作者による画像

数百、さらには数千のモデルがある場合、それぞれのエンドポイントを管理することが難しくなり、多くの料金が発生します…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

「マーシャンの共同創設者であるイータン・ギンスバーグについてのインタビューシリーズ」

エタン・ギンズバーグは、マーシャンの共同創業者であり、すべてのプロンプトを最適なLLMに動的にルーティングするプラットフ...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...