Amazon MusicはSageMakerとNVIDIAを使用してMLの訓練および推論のパフォーマンスとコストを最適化しています
「Amazon MusicがSageMakerとNVIDIAを活用し、MLの訓練と推論のパフォーマンスとコストを最適化しています」
Amazon Musicのストリーミングのダイナミックな世界で、曲、ポッドキャスト、またはプレイリストを検索するたびに、物語、気分、または隠された感情が待ち構えています。これらの検索は新しい発見、思い出に残る経験、そして永続的な思い出の入り口となります。検索バーは単なる曲の検索だけではありません。これは、Amazon Musicが提供する豊かで多様な世界への個人的な旅を始める数百万のアクティブユーザーのためのものです。
ユーザーが検索した音楽をすばやく見つけるために優れた顧客体験を提供するには、スマートでレスポンシブなプラットフォームが必要です。Amazon MusicはAIの力を活用してこれを実現しています。ただし、リアルタイムのスペルチェックやベクトル検索など、検索バーの機能を支えるAIモデルのトレーニングと推論のコストを最適化することは、ピーク時のトラフィック時に難しい課題です。
Amazon SageMakerは、Amazon MusicがAWSクラウド上で最小限の努力で構築、トレーニング、展開するためのエンドツーエンドのサービスを提供しています。SageMakerは、インフラストラクチャのような要素を気にすることなく、機械学習(ML)モデルに取り組むことに集中できるよう、一切の労力を負担してくれます。共有責任モデルの一環として、SageMakerは提供するサービスが信頼性があり、高性能でスケーラブルであることを保証し、あなたはSageMakerが提供する機能を最大限に活用してMLモデルを適用するようになります。
この記事では、Amazon MusicがSageMakerとNVIDIA Triton Inference ServerおよびTensorRTを使用してパフォーマンスとコストを最適化した経緯について詳しく解説します。その上で、ある種簡単そうに見えるものの、複雑な検索バーがどのように機能し、途切れることのないAmazon Musicの世界への旅を提供しているか、タイポの遅れのない検索結果のリアルタイム表示がなぜ関連性のあるものとなるのかを探求します。
- NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力
- 「基本的なアルゴリズムと機械学習の最新のアルゴリズムを使用して、コンピュータ科学の問題に取り組む」
- 「13/11から19/11までの週の最も重要なコンピュータビジョンの論文トップです」
Amazon SageMakerとNVIDIA:高速かつ正確なベクトル検索およびスペルチェックの機能の提供
Amazon Musicは1億以上の曲と何百万ものポッドキャストエピソードを提供しています。ただし、正確なタイトル、アーティスト、またはアルバム名を知らない場合や、「ニュースポッドキャスト」のような幅広い検索クエリの場合、適切な曲やポッドキャストを見つけることは難しいことがあります。
Amazon Musicは、検索と取得プロセスを改善するために、2つの手法を取り入れています。まず、ベクトル検索(埋め込みベースの検索とも呼ばれる)を導入し、コンテンツの意味を利用してユーザーが最も関連性の高いコンテンツを見つけるのをサポートするML技術です。次に、検索スタックにTransformerベースのスペル補正モデルを導入します。これは、音楽を検索する場合に特に役立ちます。なぜなら、ユーザーが曲のタイトルやアーティスト名を正確に知らないことがあり、スペルミスのある検索クエリでもユーザーが目的の音楽を見つけるのに役立つからです。
ベクトル検索に必要なクエリ埋め込み生成とスペル補正に関する生成型Seq2Seq Transformerモデルの導入により、検索と取得パイプラインにTransformerモデルを導入すると、全体的なレイテンシに著しい増加が生じ、顧客体験に悪影響を及ぼす可能性があります。そのため、ベクトル検索とスペル補正モデルのリアルタイム推論レイテンシを最適化することは最優先課題となりました。
Amazon MusicとNVIDIAは、SageMakerを使用して、高速かつ正確なスペルチェック機能とベクトル検索ベースのリアルタイムセマンティック検索の双方を検索バーに統合し、最高品質の顧客体験を提供するために協力しています。ソリューションには、NVIDIA A10G Tensor Core GPUを使用するG5インスタンスによって支えられたSageMakerホスティング、SageMaker対応のNVIDIA Triton Inference Serverコンテナ、およびNVIDIA TensorRTモデル形式が含まれています。スペルチェックモデルの推論レイテンシをピーク時に25ミリ秒に削減し、検索クエリ埋め込み生成のレイテンシを平均63%、コストを73%削減したCPUベースの推論と比較して、Amazon Musicは検索バーのパフォーマンスを向上させました。
さらに、正確な結果を提供するためにAIモデルをトレーニングする際、Amazon MusicはBARTシーケンス対シーケンススペル補正トランスフォーマーモデルのトレーニング時間を12倍高速化し、GPUの効率を最適化することで時間とコストの両面での大幅な節約を実現しました。
Amazon Musicは顧客の検索体験を最優先し、最適化されたスペルチェックとベクトル検索の機能を備えた検索バーを開発するためにNVIDIAと協力しました。次のセクションでは、これらの最適化がどのように実現されたのかについてさらに詳しく説明します。
NVIDIA Tensor Core GPUを使用したトレーニングの最適化
大規模な言語モデルのトレーニングにNVIDIA Tensor Core GPUへのアクセスを得るだけでは、その真の潜在能力を引き出すには不十分です。GPUの最大限の利用を実現するためには、トレーニング中に重要な最適化手順が必要です。しかし、利用されていないGPUは、リソースの非効率な使用、長時間のトレーニング、および運用コストの増加をもたらす可能性があります。
Amazon Musicは、SageMaker ml.p3.24xlargeインスタンス(NVIDIA V100 Tensor Core GPU 8台)でのスペル修正BART(bart-base)トランスフォーマーモデルの初期フェーズのトレーニングでは、GPUの利用率が約35%でした。NVIDIA GPUの加速トレーニングの利点を最大限に活用するために、AWSとNVIDIAのソリューションアーキテクトは、Amazon Musicが最適化の必要のある領域、特にバッチサイズと精度パラメータについて特定することを支援しました。これら2つの重要なパラメータは、ディープラーニングモデルのトレーニングの効率、速度、精度に影響を与えます。
結果として得られた最適化により、新しく改良されたV100 GPUの利用率は89%に安定し、Amazon Musicのトレーニング時間は3日から5〜6時間に大幅に短縮されました。バッチサイズを32から256に切り替え、FP32精度のみを使用するのではなく、自動ミックスドプレシジョントレーニングなどの最適化技術を使用することで、Amazon Musicは時間と費用を節約することができました。
以下のグラフは、最適化後のGPU利用率の増加を示しています(54%のパーセンテージポイントの増加)。
以下の図は、トレーニング時間の加速を示しています。
バッチサイズの増加により、NVIDIA GPUは複数のTensor Coreを介して同時に大量のデータを処理することができるため、トレーニング時間が加速されます。ただし、大きなバッチサイズではメモリがより多く必要とされるため、メモリとの微妙なバランスを保つことが重要です。バッチサイズの増加とミックスドプレシジョンの使用は、NVIDIA Tensor Core GPUの力を引き出す上で重要な要素です。
モデルの収束後、Amazon Musicの検索バーへの推論デプロイメントの最適化が行われました。
スペル修正:BARTモデルの推論
SageMaker G5インスタンスとNVIDIA Triton Inference Server(オープンソースの推論サービングソフトウェア)とNVIDIA TensorRTの協力により、Amazon Musicはピーク時のスペルチェックBART(bart-base)モデルサーバーの推論レイテンシをわずか25ミリ秒に制限しています。これには、負荷分散、前処理、モデル推論、および後処理の時間など、オーバーヘッドも含まれます。
NVIDIA Triton Inference Serverは、GPU上にモデルをホスティングするためのバックエンドと、プリプロセスおよびポストプロセスステップで使用するカスタムコードを持ち込むためのPythonバックエンドの2つの異なる種類のバックエンドを提供しています。以下の図はモデルアンサンブルスキームを示しています。
Amazon Musicは、BART inferenceパイプラインを構築するため、前処理(テキストトークン化)および後処理(トークンからテキストへ)ステップをCPUで実行し、モデル実行ステップをNVIDIA A10G Tensor Core GPUで実行しています。Pythonバックエンドは、TensorRTに変換されたBARTモデルとエンコーダー/デコーダーネットワークとの通信を担当しています。 TensorRTは、精度キャリブレーション、レイヤーおよびテンソルフュージョン、カーネルの自動調整、動的テンソルメモリ、マルチストリーム実行、およびタイムフュージョンにより、推論パフォーマンスを向上させます。
以下の図は、スペル修正BARTモデル推論パイプラインを構成する主要モジュールのハイレベル設計を示しています。
ベクトル検索:クエリの埋め込み生成センテンスBERTモデル推論
以下のチャートは、NVIDIA AI推論プラットフォームを使用した場合の遅延の60%改善(p90 800-900 TPS)を、CPUベースのベースラインと比較したものです。
以下のチャートは、NVIDIA AI推論プラットフォームを使用した場合のコストの70%改善を示しています。
以下の図は、高性能なディープラーニング推論のためのSDKを示しています。これには、低遅延かつ高スループットを提供する深層学習推論最適化およびランタイムが含まれています。
これらの結果を得るために、Amazon Musicは、トライトンモデルアナライザーというツールを使用して、いくつかの異なるトライトン展開パラメータを実験しました。トライトンモデルアナライザーは、効率的な推論を展開するための最適なNVIDIAトライトンモデル設定を見つけるのに役立つツールです。モデル推論を最適化するために、トライトンは動的バッチ処理や同時モデル実行などの機能を提供し、他の柔軟性の機能にも対応しています。動的バッチ処理は、推論リクエストを収集し、それらをグループ化してスループットを最大化するために連携させることで、Amazon Musicユーザーのリアルタイムな応答を確保します。同時モデル実行機能は、同じGPU上で複数のモデルのコピーをホストすることで、推論性能をさらに向上させます。最後に、トライトンモデルアナライザーを利用することで、Amazon Musicはシミュレートされたトラフィックを使用して、動的バッチ処理とモデルの同時実行推論ホスティングパラメータを注意深く調整し、推論性能を最大化する最適な設定を見つけることができました。
結論
Triton Inference ServerとTensorRTを使用して構成を最適化することで、Amazon Musicはトレーニングおよび推論パイプラインの両方で優れた結果を達成しました。SageMakerプラットフォームは、ハードウェアとソフトウェアの両方で主要なAIユースケースをサポートする、エンドツーエンドのオープンプラットフォームです。トレーニングのためのV100 GPU利用率の最適化、CPUからNVIDIA A10G Tensor Core GPUを使用するG5インスタンスへの切り替え、およびトライトン推論サーバーやTensorRTなどの最適化されたNVIDIAソフトウェアの使用により、Amazon Musicなどの企業は、トレーニングと推論の両方で時間とコストを節約できるだけでなく、パフォーマンスを向上させ、顧客エクスペリエンスを向上させ、運用コストを削減することができます。
SageMakerは、MLのトレーニングとホスティングのための重い作業を処理し、Amazon Musicが信頼性の高いスケーラブルなMLオペレーションをハードウェアとソフトウェアの両方で提供することを可能にしました。
ハードウェアとソフトウェアの選択肢を評価し、パフォーマンスを向上させるための方法があるかどうかを常に確認することで、SageMakerを使用してワークロードを最適化することをおすすめします。
NVIDIA AI in AWSについて詳しくは、以下を参照してください:
- Amazon SearchがNVIDIA TritonとAWS上で低遅延高スループットのT5推論を実現する方法
- Amazon SageMakerでNVIDIA Triton Inference Serverを使用して高速かつスケーラブルなAIを展開する方法
- Amazon SageMakerでNVIDIA Triton Inference Serverを使用してモデルサービングのハイパースケールパフォーマンスを実現する方法
- NVIDIA H100 Tensor Core GPUがAWSクラウドで利用可能に
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「LanguageChainを使用して大規模言語モデルをあなたのソフトウェアとうまく連携させる方法」
- ユレカ:大規模な言語モデルをコーディングすることによる人間レベルの報酬設計
- 「OpenAI Dev Day 2023 創設者サム・オルトマンの基調講演からの4つの重要発表、見逃せません!」
- このAI論文では、マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法であるFACTORCLを提案しています
- アマゾンセージメーカースタジオを使用して、素早い実験結果のためにLlama 2、LangChain、およびPineconeを使用してRAG型の質問応答ソリューションを構築しましょう
- 「Amazon SageMakerを使用してビジョントランスフォーマーモデルのトレーニング時間を短縮するKTの取り組み」
- テンセントAIラボは、検索補完された言語モデルの堅牢性と信頼性を高めるために、Chain-of-Noting(CoN)を導入します