Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化
Microsoft Bing speeds up ad delivery using NVIDIA Triton.
Jiusheng Chen氏のチームは加速しました。
彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行することにより、Microsoft Bingのユーザーに対してパーソナライズされた広告を7倍のスループットで低コストで提供しています。
主任ソフトウェアエンジニアリングマネージャーと彼のクルーにとって、これは素晴らしい成果です。
複雑なシステムの調整
Bingの広告サービスは、常に進化している数百のモデルを使用しています。それぞれは、10ミリ秒未満のリクエストに応答する必要があります。これは目に見えるのと同じくらい速いです。
- 魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする
- AIを活用した空中監視:UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる
- メイカーに会おう:ソフトウェアエンジニアがNVIDIA Jetsonを活用して自律運転スケートパークを構築
最新のスピードアップは、AIモデルをより高速に実行するためにチームが提供した2つの革新に始まりました:BangとEL-Attention。
これらを併用することで、より少ない時間とコンピュータメモリでより多くの処理を行うための高度な技術が適用されます。モデルトレーニングは、効率化のためにAzure Machine Learningをベースにしています。
NVIDIA A100 MIGで飛行
次に、チームは、広告サービスをNVIDIA T4からA100 GPUにアップグレードしました。
後者のMulti-Instance GPU(MIG)機能を使用すると、1つのGPUを複数のインスタンスに分割できます。
Chen氏のチームは、MIG機能を最大限に活用し、1つの物理的なA100を7つの独立したGPUに変換しました。これにより、チームはGPUあたり7倍のスループットを実現し、推論応答時間は10ミリ秒です。
柔軟で簡単でオープンなソフトウェア
Tritonは、1つのGPUの分離されたインスタンスで異なるランタイムソフトウェア、フレームワーク、AIモードを同時に実行できるようにするため、シフトを可能にしました。
推論ソフトウェアは、ソフトウェアコンテナーで提供されるため、展開が容易です。また、オープンソースのTritonは、時間とともにソフトウェアを改善するコミュニティによって支援されており、NVIDIA AI Enterpriseを通じてエンタープライズグレードのセキュリティとサポートも提供されています。
Tritonを使用してA100 GPU上でBingの広告システムを加速することは、Chen氏が彼の仕事で好む例の1つです。彼はAIのブレイクスルーを見ることができます。
シナリオがしばしば変わる中で、チームの目標は同じままであり、ユーザーと広告主の両方にとって勝利を創造することです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles