モダンなCPU上でのBERTライクモデルの推論のスケーリングアップ – パート2

モダンなCPU上でのBERTライクモデルの推論のスケーリングアップ - Part 2

イントロダクション：CPU上でのAI効率を最適化するためのIntelソフトウェアの使用

前のブログ記事で詳細に説明したように、Intel Xeon CPUは、AVX512やVNNI（Vector Neural Network Instructions）などのAIワークロードに特に設計された機能を提供しており、整数量子化されたニューラルネットワークを使用した効率的な推論をサポートするための追加のシステムツールも提供しています。このブログ記事では、ソフトウェアの最適化に焦点を当て、Intelの新しいIce Lake世代のXeon CPUのパフォーマンスについて紹介します。私たちの目標は、Intelのハードウェアを最大限に活用するためにソフトウェア側で利用可能なものをすべて紹介することです。前のブログ記事と同様に、ベンチマークの結果とグラフとともに、これらのツールと機能を簡単に使用できるようにします。

4月にIntelは最新のIntel Xeonプロセッサ、コードネームIce Lakeを発売しました。これはより効率的で高性能なAIワークロードをターゲットにしています。具体的には、Ice Lake Xeon CPUは、以前のCascade Lake Xeonプロセッサと比較して、さまざまなNLPタスクで最大75%高速な推論が可能です。これは、新しいSunny Coveアーキテクチャ上での新しい命令やPCIe 4.0のようなハードウェアおよびソフトウェアの改善の組み合わせによって実現されています。最後になりますが、Intelは、IntelのExtension for Scikit Learn、Intel TensorFlow、Intel PyTorch Extensionなどのように、さまざまなフレームワークに対して特化した最適化を行っています。

これらの機能は、データサイエンティストや機械学習エンジニアが日常的に使用するツールセットのスタックの非常に低いレベルにあります。ほとんどの場合、PyTorchやTensorFlowなどの高レベルのフレームワークやライブラリを使用して多次元配列の操作を処理し、BLAS（Basic Linear Algebra Subroutines）などの高度にチューニングされた数学演算子を使用することが一般的です。

この領域では、IntelはoneAPIの下でソフトウェアコンポーネントを提供することで重要な役割を果たしており、Intel oneMKL（Math Kernel Library）を介して高効率な線形代数ルーチンを非常に簡単に使用できるようにしています。さらに、Intel OpenMPやThreading Building Blocks（oneTBB）を使用した高レベルの並列化フレームワークや、Intel oneDNNを使用したディープニューラルネットワークプリミティブ（ReLU、完全接続など）やoneCCLを使用した集合通信など、一部の特定のドメイン向けライブラリも提供しています。特に複数のホスト上で効率的なオールリデュース操作にアクセスする際に特に有用です。

MKLやoneDNNなどのこれらのライブラリは、PyTorchやTensorFlow（2.5.0以降）などのフレームワークにネイティブに組み込まれており、パフォーマンスの改善がユーザーに提供されています。特定のハードウェア機能をターゲットにしたい場合、Intelは最も一般的なソフトウェアのカスタムバージョンを提供しており、Intelプラットフォーム向けに特化した高度にチューニングされたフレームワークやIntel PyTorch Extension（IPEX）フレームワークなどがあります。

詳細：高度なIntelの機能を活用してAIのパフォーマンスを向上させる

パフォーマンスチューニングツール

上記で強調したように、AIアプリケーションのパフォーマンスを向上させるための新しい調整可能な項目セットについて説明します。高レベルの視点から見ると、すべての機械学習およびディープラーニングフレームワークは、同じ要素で構成されています：

メモリ内でデータを構造化する方法（ベクトル、行列など）
数学演算子の実装
ターゲットハードウェア上での計算の効率的な並列化

上記のポイントに加えて、ディープラーニングフレームワークでは、勾配を計算するためにデータフローや依存関係を表現する方法も提供されています。これはこのブログ記事の範囲外であり、上記でリストアップしたコンポーネントと同じものを活用しています！

図1. oneAPIアンブレラの下でのIntelライブラリの概要

1. メモリ割り当てと管理のためのライブラリ

このブログ記事では、データの表現については特定のフレームワークに依存するため、意図的にスキップします。参考までに、PyTorchはATenと呼ばれる独自の実装を使用しています。一方、TensorFlowはこの目的にオープンソースライブラリEigenを使用しています。

異なるオブジェクト構造やレイアウトに対して一般的な最適化を適用するのは非常に複雑ですが、影響を与えることができる領域があります：メモリ割り当てです。ここでのメモリ割り当ては、mallocやC++のnew演算子など、プログラムによってオペレーティングシステムに動的な（事前には分からない）領域を要求し、そこにアイテムを保存できるようにするプロセスを指します。メモリの効率性は、速度だけでなく断片化の観点でも大きな科学的およびエンジニアリングの課題であり、タスクと基盤となるハードウェアによって異なる複数の解決策が存在します。過去数年間、この領域でさまざまな取り組みが行われており、特に次のようなものがあります：

jemalloc（Facebook – 2005）
mimalloc（Microsoft – 2019）
tcmalloc（Google – 2020）

それぞれがさまざまなソフトウェアのメモリ割り当てと管理の改善を目指して異なるアプローチを進めています。

2. 計算の効率的な並列化

データを効率的に表現する方法があることを考えると、私たちは利用可能な計算ハードウェアの最大限の利用をする方法が必要です。興味深いことに、推論に関しては、CPUはどこにでも存在し、特定のアプリケーションコンポーネントや管理スタッフを必要としません。

現代のCPUには多くのコアとソフトウェアの全般的な性能を向上させるための複雑なメカニズムが備わっています。しかし、最初のブログ記事でも強調したように、それらはターゲットとするワークロードの種類（CPUボンドまたはI/Oボンド）に応じて調整できる機能も持っており、アプリケーションのパフォーマンスをさらに向上させることができます。

ただし、並列アルゴリズムを実装することは、単により多くのコアを投入して作業を行うことほど簡単ではありません。使用されるデータ構造、並列データアクセス、CPUキャッシュの無効化など、多くの要因があり、これらがアルゴリズムの効果的な高速化を妨げる可能性があります。関連するトークとして、興味がある場合はScott Meyersの「CPUキャッシュとなぜ気にする必要があるのか」をおすすめします。

幸いなことに、このような並列アルゴリズムの開発プロセスを容易かつエラーの少ないものにするためのライブラリがあります。最も一般的な並列ライブラリには、OpenMPとTBB（Threading Building Blocks）があります。これらは、C/C++のプログラミングAPIから環境変数の調整や動的スケジューリングまで、さまざまなレベルで機能します。Intelハードウェアでは、Intel oneAPIツールキットの一部として提供されるIntelのOpenMP仕様の実装である”IOMP”を使用することをお勧めします。

図2. OpenMPを使用した並列計算を示すコードスニペット

3. 最適化された数学演算子

効率的なデータ構造と並列アルゴリズムの設計に必要な構成要素をすでにカバーしましたが、残る最後の要素は計算を実行する要素です。これは、さまざまな数学演算子とニューラルネットワークレイヤーを実装し、私たちが最も好きなこと、ニューラルネットワークの設計を行うものです！ 😊

プログラマのツールキットには、数学演算のサポートをもたらす複数のレベルがあります。これらは、使用されているデータストレージレイアウト（連続メモリ、チャンク、パックなど）、各スカラー要素を表すデータ形式（Float32、Integer、Long、Bfloat16など）、そしてもちろん、プロセッサがサポートしているさまざまな命令など、さまざまな要因に応じて異なる最適化方法があります。

現在では、ほとんどのプロセッサがスカラーアイテム（一度に1つのアイテム）またはベクトル化モード（同じCPU命令内で複数のアイテムで操作することを意味するSIMD「Single Instruction Multiple Data」）で基本的な数学演算をサポートしています。有名なSIMD命令セットには、SSE2、AVX、AVX2があり、最新世代のIntel CPUでは1つのCPUクロック内で16バイトのコンテンツを操作できます。

ほとんどの場合、ベクトル間の要素ごとの単純な加算を実行するために生成されるアセンブリについて心配する必要はありませんが、もし心配なら、CPU固有のイントリンシックを呼び出すコードを記述するよりもさらに高いレベルに進むことができるライブラリもあります。これは、例えばIntelのMKL（Math Kernel Library）が提供しているものであり、基本的な線形代数のためのすべての基本演算を実装するための有名なBLAS（Basic Linear Algebra Subroutines）インターフェースとともに提供されています。

さらに、ドメイン固有のライブラリとして、IntelのoneDNNがあります。これは、ニューラルネットワークレイヤーを実装するために必要な最も一般的で基本的なブロックを提供します。 Intel MKLとoneDNNは、PyTorchフレームワークにネイティブに統合されており、Linear + ReLUやConvolutionなどの特定の操作のパフォーマンスを向上させることができます。 TensorFlowの場合、oneDNNは環境変数TF_ENABLE_ONEDNN_OPTS=1（TensorFlow>= 2.5.0）を設定することで、同様の機能を利用できます。

自動パフォーマンスチューニング：Intel SigOptによるベイジアン最適化

前述のように、Intel CPU上でのレイテンシとスループットを改善するためには多くのツマミがありますが、最適なパフォーマンスを得るためにはすべてを調整するのは手間がかかります。例えば、私たちの実験では、次のツマミを調整しました：

コアの数：持っているだけ多くのコアを使用することは良いアイデアですが、常に最高のパフォーマンスを提供するわけではありません。なぜなら、それは異なるスレッド間のより多くの通信を意味するからです。さらに、より少ないコアでより良いパフォーマンスを実現することは非常に便利であり、複数のインスタンスを同時に実行することができるため、レイテンシとスループットの両方が向上します。
メモリアロケータ：デフォルトのmalloc、Googleのtcmalloc、Facebookのjemallocのうち、どのメモリアロケータが最高のパフォーマンスを提供するのか？
並列処理ライブラリ：GNU OpenMPとIntel OpenMPのうち、どの並列処理ライブラリが最高のパフォーマンスを提供するのか？
Transparent Huge Pages：システムでTransparent Huge Pages（THP）を有効にすることで、パフォーマンスが向上するのか？
KMPブロック時間パラメータ：並列領域の実行が完了した後、スレッドが待機する時間（ミリ秒単位）を設定します。

もちろん、すべての可能性を試して最適な性能を得るためのツマミの値を提供する、ブルートフォースアプローチは最適ですが、検索空間のサイズがN x 3 x 2 x 2 x 2 = 24Nであるため、時間がかかることがあります。例えば、80個の物理コアを持つマシンでは、最大24 x 80 = 1920の異なるセットアップを試すことになります！ 😱

幸いにも、IntelのSigOptはベイジアン最適化を通じて、これらのチューニング実験をより速く、より便利に分析できるようにしてくれます。また、ブルートフォースアプローチと同様の性能を提供します。

SigOptが提供する最適なレイテンシーと絶対的に最高のレイテンシーとの相対的な差を分析すると、ブルートフォースよりも優れた性能であることがわかります（特定のケースではシーケンス長=512を除いて）。この図では、最大のギャップは8.6%です。

図23. SigOpt自動チューニングによる絶対最高のレイテンシーとブルートフォース

図24. SigOpt自動チューニングによる相対最高のレイテンシーとブルートフォース

SigOptは分析にも非常に便利です。最も優れた値、対応するツマミ、トライアルの履歴、およびトライアルが進むにつれてどのように改善されたかといった情報を提供してくれます。例えば、シーケンス長=20の場合：

図25. SigOptの最適な値レポート

図26. SigOptの最適な値レポート

この特定の設定では、16個のコアとその他のツマミが最良の結果をもたらしました。これは非常に重要なことです。なぜなら、モデルの複数のインスタンスを並列に実行しても、それぞれの最適なレイテンシーを得ることができるからです。

また、約20回のトライアルで収束したことも示しています。つまり、40回ではなく25回のトライアルでも十分だったかもしれません。パラメータの重要度など、さまざまな貴重な情報が利用可能です。

予想通り、コアの数が最も重要なパラメータであることがわかりますが、他のパラメータも重要な役割を果たし、実験に依存します。例えば、シーケンス長=512の実験では、次のようなパラメータの重要度がありました：

図27. バッチサイズ=1、シーケンス長=20のSigOpt最適値

図28. バッチサイズ=1、シーケンス長=512のSigOpt最適値

ここでは、アロケータの影響よりもOpenMP vs Intel OpenMPの影響が大きかったです。また、シーケンス長=20の実験よりも、各ツマミの相対的な重要性がバランスしています。SigOptでは、対話型を含むさまざまな図が利用可能です。たとえば：

ツマミ対ツマミまたはツマミ対目的といった2Dの実験履歴
ツマミ/目的に対して1つ以上のツマミを使用した2Dの実験履歴と同様のことを行う3Dの実験履歴

結論 – トランスフォーマーの本番向け高速化

この記事では、新しいIntel Ice Lake Xeon CPUがAIワークロードを大規模に実行するために適していることを示しました。また、ハードウェアのフルポテンシャルを引き出すために、前のブログで詳細に説明したさまざまな下位レベルのツマミの設定後に考慮する必要があるソフトウェア要素についても説明しました。

Hugging Faceでは、最先端の機械学習を民主化する使命を掲げており、その一環として、これらの最先端モデルを可能な限り効率的にし、スケールでのエネルギーとメモリの使用量を減らし、すべての企業がより手頃な価格で実行できるようにすることが重要です。

🤗ハードウェアパートナープログラムを通じたIntelとの協力により、新しい🤗Optimumオープンソースライブラリを通じて、高効率化と最適化の技術をコミュニティに簡単に提供することが可能になりました。

トランスフォーマーモデルの推論を加速したい企業向けに、新しい🤗Infinity製品は、GPUで1ms、Intel Xeon Ice Lake CPUで2msのレイテンシーを実現するプラグアンドプレイのコンテナ化されたソリューションを提供しています。

もし、この投稿が興味深かったり、仕事に役立つと思われる場合は、Optimumにスターを与えることを検討してください。また、もし、この投稿があなたの耳にとっての音楽だった場合は、私たちの機械学習最適化チームへの参加を考えてみてください！

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

モダンなCPU上でのBERTライクモデルの推論のスケーリングアップ – パート2

イントロダクション：CPU上でのAI効率を最適化するためのIntelソフトウェアの使用

詳細：高度なIntelの機能を活用してAIのパフォーマンスを向上させる

パフォーマンスチューニングツール

1. メモリ割り当てと管理のためのライブラリ

2. 計算の効率的な並列化

3. 最適化された数学演算子

最新のIntel Ice Lake CPUにおけるより効率的なAI処理

ベースラインの確立

ベースライン：イーガーフレームワークのレイテンシ

ベースライン：グラフフレームワークの遅延

メモリアロケータの調整：観測される遅延に影響を与える可能性がありますか？

メモリアロケータのベンチマーク

OpenMP

自動パフォーマンスチューニング：Intel SigOptによるベイジアン最適化

結論 – トランスフォーマーの本番向け高速化

Was this article helpful?

🤗 Transformersを使用して、低リソースASRのためにXLSR-Wav2Vec2を微調整する

コース開始コミュニティイベント

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ギル・ジェロン、Orca SecurityのCEO＆共同創設者-インタビューシリーズ

2023年にAmazonのデータサイエンティストになる方法は？

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか？

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」