アマゾンセージメーカーでのLlama 2のベンチマーク

Amazon SageMakerでのLlama 2のベンチマーク

大型言語モデル（LLM）や他の生成型AIモデルの展開は、計算要件とレイテンシのニーズのために課題となることがあります。Hugging Face LLM Inference Containerを使用してAmazon SageMaker上でLlama 2を展開する企業に有用な推奨事項を提供するために、Llama 2の60以上の異なる展開設定を分析した包括的なベンチマークを作成しました。

このベンチマークでは、さまざまなサイズのLlama 2をAmazon EC2インスタンスのさまざまなタイプでさまざまな負荷レベルで評価しました。私たちの目標は、レイテンシ（トークンごとのミリ秒）とスループット（秒あたりのトークン数）を測定し、次の3つの一般的なユースケースに最適な展開戦略を見つけることです：

最も費用対効果の高い展開：低コストで良好なパフォーマンスを求めるユーザー向け
最高のレイテンシ展開：リアルタイムサービスのレイテンシを最小限に抑えるための展開
最高のスループット展開：秒あたりの処理トークンを最大化するための展開

このベンチマークを公正かつ透明で再現可能なものにするために、使用したすべてのアセット、コード、データを共有しています：

GitHubリポジトリ
生データ
処理済みデータのスプレッドシート

私たちは、顧客がLLMsとLlama 2を効率的かつ最適に自社のユースケースに使用できるようにしたいと考えています。ベンチマークとデータに入る前に、使用した技術と手法を見てみましょう。

Amazon SageMaker上のLlama 2のベンチマーク
- Hugging Face LLM Inference Containerとは何ですか？
- Llama 2とは何ですか？
- GPTQとは何ですか？
- ベンチマーク
- 推奨事項と洞察
  - 最も費用対効果の高い展開
  - 最高のスループット展開
  - 最高のレイテンシ展開
- 結論

Hugging Face LLM Inference Containerとは何ですか？

Hugging Face LLM DLCは、LLMsを安全で管理された環境で簡単に展開するための特化型Inference Containerです。DLCは、テキスト生成推論（TGI）によって駆動されており、StarCoder、BLOOM、GPT-NeoX、Falcon、Llama、T5などの最も人気のあるオープンソースLLMsに対して高性能なテキスト生成を可能にします。VMware、IBM、Grammarly、Open-Assistant、Uber、Scale AIなど、さまざまな企業が既にText Generation Inferenceを使用しています。

Llama 2とは何ですか？

Llama 2は、Metaがトレーニングした2兆トークンのLLMsのファミリーです。Llama 2には7B、13B、70Bのパラメータを持つ3つのサイズがあり、Llama（1）と比較して、より長いコンテキスト長、商用ライセンス、および強化学習を通じた最適化されたチャット機能などの主要な改良が導入されています。Llama 2について詳しくは、このブログ記事をご覧ください。

GPTQとは何ですか？

GPTQは、GPTなどのLLMsを圧縮するための事後トレーニング量子化メソッドです。GPTQは、モデルの各重みの格納に必要なビット数を32ビットからわずか3〜4ビットに削減することで、GPT（デコーダ）モデルを圧縮します。これにより、モデルのメモリ使用量を大幅に削減し、より少ないハードウェア（例：13B Llama2モデルの単一GPU）で実行できます。GPTQは、モデルの各層を個別に分析し、重みを近似して全体の精度を保持します。詳細と使用方法については、「GPTQとHugging Face Optimumを使用したオープンLLMsの最適化」をご覧ください。

ベンチマーク

Llama 2の実世界のパフォーマンスをベンチマークするために、4つの異なるインスタンスタイプと4つの異なる負荷レベルで3つのモデルサイズ（7B、13B、70Bのパラメータ）をテストし、60の異なる設定を評価しました：

モデル：7B、13B、70Bを含む現在利用可能なすべてのモデルサイズを評価しました。
同時リクエスト：1、5、10、20の異なる同時リクエストの設定でパフォーマンスをテストし、異なる使用シナリオでのパフォーマンスを判断しました。
インスタンスタイプ：g5.2xlarge、g5.12xlarge、g5.48xlarge（NVIDIA A10G GPU搭載）、およびp4d.24xlarge（NVIDIA A100 40GB GPU搭載）など、さまざまなGPUインスタンスを評価しました。
量子化：量子化の有無でパフォーマンスを比較しました。量子化技術としてGPTQ 4ビットを使用しました。

メトリクスとして、以下のように定義されるスループットとレイテンシを使用しました：

スループット（トークン/秒）：1秒間に生成されるトークンの数。
レイテンシ（ms/トークン）：1つのトークンを生成するのにかかる時間。

これらを使用して、異なるセットアップにおけるLlamaのパフォーマンスを評価し、利点とトレードオフを理解しました。ベンチマークを自分で実行したい場合は、Githubのリポジトリを作成しました。

Amazon SageMakerベンチマーク：TGI 1.0.3 Llama 2のシートには、ベンチマークの完全なデータがあります。生データはGitHubで利用できます。

すべての詳細に興味がある場合は、提供された生データに詳細に入ることをお勧めします。

推奨事項と洞察

ベンチマークに基づいて、すべてのLlama 2モデルサイズに対して、コスト、スループット、レイテンシの優先順位に応じた最適なLLMデプロイメントについて具体的な推奨事項を提供します。

注：推奨事項は、テストした構成に基づいています。将来的には、Inferentia2などの他の環境やハードウェアのオファリングがよりコスト効率が良くなる可能性もあります。

最もコスト効率の高いデプロイメント

最もコスト効率の高い構成では、パフォーマンス（レイテンシとスループット）とコストの適切なバランスを重視します。費やしたドルあたりの出力を最大化することが目標です。私たちは5つの同時リクエスト中のパフォーマンスを見ました。GPTQが最もコスト効果が高く、Llama 2 13Bを単一のGPU上に展開することができることがわかります。

最高スループットのデプロイメント

最高スループットの構成では、1秒間に生成されるトークンの数を最大化します。これにより、トークンを同時に処理するため、全体のレイテンシがわずかに低下する場合があります。私たちは20の同時リクエスト中の最も高いトークン数パフォーマンスを見ました。最も高いスループットは、ml.p4d.24xlargeインスタンス上のLlama 2 13Bで、688トークン/秒でした。

最小レイテンシのデプロイメント

最小レイテンシの構成では、1つのトークンを生成するのにかかる時間を最小限に抑えます。低いレイテンシは、リアルタイムのユースケースやチャットアプリケーションなど、顧客に良い体験を提供するために重要です。私たちは1つの同時リクエスト中のミリ秒/トークンの最小中央値を調べました。最も低い全体的なレイテンシは、ml.g5.12xlargeインスタンス上のLlama 2 7Bで、16.8ms/トークンです。

結論

このベンチマークでは、Amazon SageMaker上のLlama 2の60の構成をテストしました。コスト効果の高い展開では、g5.2xlarge上のGPTQを使用した13B Llama 2は、1時間あたり$1.55で71トークン/秒を提供します。最大スループットでは、ml.g5.12xlarge上の13B Llama 2は、1Mトークンあたり$2.21で296トークン/秒に到達しました。そして、最小レイテンシでは、ml.g5.12xlarge上の7B Llama 2は、1つのトークンあたり16msを達成しました。

このベンチマークが企業が自社のニーズに基づいてLlama 2を最適に展開するのに役立つことを願っています。Amazon SageMakerでLlama 2を展開する準備をする場合は、Introducing the Hugging Face LLM Inference Container for Amazon SageMakerとDeploy Llama 2 7B/13B/70B on Amazon SageMakerのブログ記事をチェックしてください。

読んでいただきありがとうございます！ご質問がある場合は、TwitterまたはLinkedInでお気軽にお問い合わせください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

アマゾンセージメーカーでのLlama 2のベンチマーク

Hugging Face LLM Inference Containerとは何ですか？

Llama 2とは何ですか？

GPTQとは何ですか？

ベンチマーク

推奨事項と洞察

最もコスト効率の高いデプロイメント

最高スループットのデプロイメント

最小レイテンシのデプロイメント

結論

Was this article helpful?

生成AIのアシストを使用して複雑なSQLクエリを作成する

OpenAIのChatGPTが音声と画像の機能を発表：AI対話における革命的な飛躍

AIニュース

新しいAI研究がGPT4RoIを紹介します：地域テキストペアに基づくInstruction Tuning大規模言語モデル（LLM）によるビジョン言語モデル

「CodiumAIに会ってください：開発者のための究極のAIベースのテストアシスタント」

このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です

「Amazon SageMakerは、個々のユーザーのためにAmazon SageMaker Studioのセットアップを簡素化します」

「オックスフォード大学と西安交通大学の研究者たちが、先端メモリ技術での相変化材料のシミュレーションに向けた革新的な機械学習モデルを発表」

ゲーム業界の皆様へ！もう奇妙な鏡は不要です、Mirror-NeRFが登場しました！