AWS Inferentia2を使用してHugging Face Transformersを高速化する
Using AWS Inferentia2 to accelerate Hugging Face Transformers.
過去5年間、Transformerモデル[1]は、自然言語処理(NLP)、コンピュータビジョン(CV)、音声など、多くの機械学習(ML)タスクのデファクトスタンダードとなりました。今日、多くのデータサイエンティストやMLエンジニアは、BERT[2]、RoBERTa[3]、Vision Transformer[4]などの人気のあるTransformerアーキテクチャ、またはHugging Faceハブで利用可能な130,000以上の事前学習済みモデルを使用して、最先端の精度で複雑なビジネス問題を解決するために頼っています。
しかし、その優れた性能にもかかわらず、Transformerは本番環境での展開には困難を伴うことがあります。モデル展開に通常関連するインフラストラクチャの設定に加えて、我々はInference Endpointsサービスで大部分の問題を解決しましたが、Transformerは通常、数ギガバイトを超える大きなモデルです。GPT-J-6B、Flan-T5、Opt-30Bなどの大規模言語モデル(LLM)は数十ギガバイトであり、BLOOMなどの巨大なモデルは350ギガバイトもあります。
これらのモデルを単一のアクセラレータに適合させることは非常に困難ですし、会話型アプリケーションや検索のようなアプリケーションが必要とする高スループットと低推論レイテンシを実現することはさらに難しいです。MLの専門家たちは、大規模モデルをスライスし、アクセラレータクラスタに分散させ、レイテンシを最適化するために複雑な手法を設計してきました。残念ながら、この作業は非常に困難で時間がかかり、多くのMLプラクティショナーには到底手の届かないものです。
Hugging Faceでは、MLの民主化を進めるとともに、すべての開発者と組織が最先端のモデルを利用できるようにすることを目指しています。そのため、今回はAmazon Web Servicesと提携し、Hugging Face TransformersをAWS Inferentia 2に最適化することに興奮しています!これは、前例のないスループット、レイテンシ、パフォーマンス、スケーラビリティを提供する新しい特別な推論アクセラレータです。
- 中国語話者向けのHuggingFaceブログをご紹介します:中国のAIコミュニティとの協力の促進
- Hugging Face Unity APIのインストールと使用方法
- StarCoder:コードのための最先端のLLM
AWS Inferentia2の紹介
AWS Inferentia2は、2019年に発売されたInferentia1の次世代です。Inferentia1のパワーにより、Amazon EC2 Inf1インスタンスは、NVIDIA A10G GPUをベースとしたG5インスタンスと比較して、スループットが25%向上し、コストが70%削減されました。そして、Inferentia2により、AWSは再び限界を em>押し広げています。
新しいInferentia2チップは、Inferentiaと比較してスループットが4倍向上し、レイテンシが10倍低下します。同様に、新しいAmazon EC2 Inf2インスタンスは、G5インスタンスと比較して、スループットが最大2.6倍向上し、レイテンシが8.1倍低下し、性能は50%向上します。Inferentia 2は、高スループットによる推論ごとの最適化と、低推論レイテンシによるアプリケーションの応答時間を両立させます。
Inf2インスタンスは、複数のサイズで利用可能であり、1から12のInferentia 2チップが搭載されています。複数のチップが存在する場合、大規模モデルの分散推論のために高速な直接のInferentia2からInferentia2への接続が行われます。たとえば、最大のインスタンスサイズであるinf2.48xlargeには12つのチップが搭載されており、GPT-3やBLOOMのような1750億パラメータモデルをロードするのに十分なメモリがあります。
幸いなことに、これらのすべては開発の複雑さを損なうことはありません。最適ニューロンを使用すると、モデルをスライスしたり変更する必要はありません。AWS Neuron SDKのネイティブ統合のおかげで、Inferentia 2のためにモデルをコンパイルするにはわずか1行のコードが必要です。数分で実験できます!Inferentia 2でモデルがどのようなパフォーマンスを発揮するかをテストし、自分自身で確認してください。
話は変わりますが、いくつかのHugging FaceモデルがInferentia 2で動作する様子をご紹介しましょう。ベンチマークの時間です!
AWS Inferentia 2でのHugging Faceモデルのベンチマーク
私たちは、BERT、RoBERTa、DistilBERTなどのHugging Face Hubからの最も人気のあるNLPモデル、およびVision Transformerなどのビジョンモデルを評価しました。
最初のベンチマークでは、Inferentia、Inferentia 2、およびGPUのパフォーマンスを比較しました。すべての実験はAWSで実行し、以下のインスタンスタイプを使用しました:
- Inferentia1 – Inferentiaチップを搭載したinf1.2xlarge。
- Inferentia2 – Inferentia2チップを搭載したinf2.xlarge。
- GPU – NVIDIA A10G GPUを搭載したg5.2xlarge。
注意: モデルはGPU環境に最適化されていません。モデルはfp32で評価されています。
Transformerモデルのベンチマークには、最も採用されている2つの指標があります:
- レイテンシ: モデルが単一の予測を行うのにかかる時間(前処理、予測、後処理)。
- スループット: ベンチマーク構成ごとに固定された時間内で実行される回数
私たちはさまざまなセットアップとモデルでのレイテンシを調査し、新しいInferentia2インスタンスの利点とトレードオフを理解しました。ベンチマークを自分自身で実行したい場合は、すべての情報とスクリプトを含むGithubリポジトリを作成しました。
結果
ベンチマークにより、AWSが主張するパフォーマンスの改善が実際のユースケースと例によって再現され、検証されることが確認されました。平均して、AWS Inferentia2はNVIDIA A10G GPUよりもレイテンシが4.5倍向上し、Inferentia1インスタンスよりもレイテンシが4倍優れています。
私たちは6つの異なるモデルアーキテクチャで144回の実験を実施しました:
- アクセラレータ: Inf1、Inf2、NVIDIA A10G
- モデル: BERT-base、BERT-Large、RoBERTa-base、DistilBERT、ALBERT-base、ViT-base
- シーケンス長: 8、16、32、64、128、256、512
- バッチサイズ: 1
各実験では、p95レイテンシの数値を収集しました。ベンチマークの詳細は、このスプレッドシートで確認できます: HuggingFace: Benchmark Inferentia2。
ベンチマークのいくつかの洞察を強調しましょう。
BERT-base
以下は各インフラストラクチャセットアップでBERT-baseを実行した場合のレイテンシ比較です。シーケンス長が256までの場合、Inferentia2が他のすべてのセットアップを約6倍上回ることが明らかです。
図1. BERT-base p95レイテンシ
ビジョンTransformer
以下は異なるインフラストラクチャセットアップでViT-baseを実行した場合のレイテンシ比較です。Inferentia2はNVIDIA A10Gよりもレイテンシが2倍優れており、従来のアーキテクチャ(CNNなど)からTransformerへの移行がリアルタイムアプリケーションに大いに役立つ可能性があります。
図1. ViT p95レイテンシ
結論
Transformerモデルは、多くの機械学習タスクにおいてゴートゥーソリューションとして登場しました。しかし、それらを本番環境で展開することは、その大きなサイズとレイテンシの要件のために困難でした。AWS Inferentia2とHugging FaceとAWSの協力により、開発者や組織は機械学習の専門知識を必要とせずに、最先端のモデルの利点を活用することができるようになりました。0.76$/hからのテストを開始できます。
初期のベンチマーク結果は有望であり、Inferentia2はInferentiaとNVIDIA A10G GPUと比較して優れたレイテンシ性能を提供します。この最新のブレークスルーにより、高品質な機械学習モデルがより広範なユーザーに利用可能となり、AIのアクセシビリティが向上します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles