「Nvidia Triton Inference Serverを使用してPyTorchモデルをデプロイする」

Deploying PyTorch models using Nvidia Triton Inference Server

柔軟で高性能なモデルサービングソリューション

機械学習（ML）の価値は、モデルのホスティングと推論に到達したときに本当に認識されます。モデルがスケーリングアップおよびスケーリングダウンするのに役立つ、高性能なモデルサービングソリューションがなければ、MLワークロードを本番環境で運用することは困難です。

モデルサーバーとは何ですか/モデルサービングとは何ですか？ モデルサーバーは、MLの世界におけるウェブサーバーに相当するものです。モデルに大量のハードウェアを投入するだけでは十分ではありません。クライアントのリクエストを効率的に処理し、アプリケーションが受けているトラフィックに対応するために必要なハードウェアを適切に割り当てるための通信レイヤーが必要です。モデルサーバーはユーザーにとって調整可能な機能です。gRPC vs RESTなどの要素を制御することで、レイテンシの観点からパフォーマンスを最大化できます。人気のあるモデルサーバーの例は以下の通りです。

TensorFlow Serving
TorchServe
Multi-Model Server (MMS)
Deep Java Library (DJL)

今日私たちが探求するのはNvidia Triton Inference Serverです。高度に柔軟かつ高性能なモデルサービングソリューションです。各モデルサーバーは、モデルアーティファクトと推論スクリプトが、それ自体が理解できる独自の方法で提示される必要があります。本記事では、サンプルのPyTorchモデルを取り上げ、Triton Inference Serverを利用してホストする方法を示します。

注意：この記事では、機械学習の基本的な理解があり、モデルの構築についての理論には触れません。Pythonの習熟度とDockerコンテナの基本的な理解も前提としています。また、開発にはSageMaker Classic Notebook Instanceで作業するため、必要に応じてAWSアカウントを作成してください（他の場所でもこのサンプルを実行することもできます）。

免責事項：私はAWSの機械学習アーキテクトであり、私の意見は私自身のものです。

なぜTriton Inference Serverなのか？

Triton Inference Serverは、次のようなさまざまな利点を持つオープンソースのモデルサービングソリューションです。

フレームワークのサポート：Tritonは、ネイティブで多数の…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「Nvidia Triton Inference Serverを使用してPyTorchモデルをデプロイする」

柔軟で高性能なモデルサービングソリューション

なぜTriton Inference Serverなのか？

Was this article helpful?

「NLPモデルの正規化に関するクイックガイド」

「ポーズマッピング技術によって、脳性麻痺の患者を遠隔で評価することができます」

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク：違いは何ですか？」

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」