Microsoft AIは、バッチサイズや帯域幅の制限に阻まれることなく、効率的な大規模モデルのトレーニングにZeROを搭載した高度な通信最適化戦略を導入しています

Microsoft AI has introduced advanced communication optimization strategies equipped with ZeRO for efficient training of large-scale models without being hindered by batch size or bandwidth limitations.

マイクロソフトの研究者たちは、高いデータ転送オーバーヘッドと帯域幅の制限に対処するために、大規模なAIモデルのトレーニングを最適化するためにZeRO++という新しいシステムを開発しました。ZeRO++は既存のZeROの最適化を基盤にし、トレーニング効率を向上させ、トレーニング時間とコストを削減するために強化された通信戦略を提供します。

Turing-NLG、ChatGPT、GPT-4などの大規模なモデルのトレーニングには、複数のGPUデバイスを跨いで大量のメモリとコンピューティングリソースが必要です。DeepSpeedによって開発されたZeRO++は、GPUごとの小規模なバッチサイズまたは低帯域幅クラスタでのトレーニングのシナリオにおいて、ZeROの制限を克服するために通信最適化戦略を導入しています。

ZeRO-Inferenceを含むZeRO最適化のファミリーは、GPUメモリとコンピューティングパワーを集約してモデル状態をGPU間でパーティション化することで、複製ではなくパーティション化を実現します。ただし、ZeROはトレーニング中に高い通信オーバーヘッドを引き起こす場合があります。ZeRO++は、量子化された重み通信(qwZ)、階層的重みパーティション(hpZ)、および量子化勾配通信(qgZ)の3つのセットの通信最適化を組み込むことにより、これに対処します。

通信量を減らすために、ZeRO++は重みの量子化によって、訓練精度を保持するためのブロックベースの量子化を利用します。この最適化された量子化プロセスは、基本的な量子化よりも高速で正確です。逆伝搬中の通信オーバーヘッドを最小限に抑えるために、ZeRO++は、各マシン内で完全なモデルコピーを維持することによって、GPUメモリを通信に交換します。勾配通信については、ZeRO++は、クロスノードトラフィックとレイテンシを減らす新しい量子化勾配通信パラダイムqgZを導入しています。

これらの通信最適化により、通信量が大幅に削減されます。ZeRO++は、ZeROと比較して最大4倍の削減を実現し、トレーニングのスループットと効率を向上させます。ZeRO++は、GPUごとの小規模なバッチサイズを使用する場合に、高帯域幅クラスタでZeRO-3に比べて28%〜36%のスループット向上を実現します。ZeRO++は、ZeRO-3に比べて低帯域幅クラスタで平均2倍のスピードアップを達成し、AIのさまざまなクラスタで大規模なモデルのトレーニングをよりアクセス可能にします。

ZeRO++はトレーニングシナリオに限定されず、対話モデルで使用される人間からのフィードバック(RLHF)トレーニングにも拡張されます。DeepSpeed-Chatと統合することで、RLHFトレーニングは、ZeROに比べて最大2.25倍の生成スループットと1.26倍のトレーニングスループットの向上を実現できます。

DeepSpeedは、大規模なモデルのトレーニングを効率的かつアクセス可能にするためにZeRO++をリリースしました。このシステムは、トレーニングを加速し、通信オーバーヘッドを削減し、より大きなバッチサイズを可能にするように設計されており、最終的に時間とリソースを節約します。研究者や実践者は、ChatGPTなどのモデルのトレーニングをより効果的に行い、AIの新たな可能性を探索するためにZeRO++を活用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、「パーシウス」という画期的なフレームワークを紹介していますこれにより、大規模な機械学習やAIモデルのトレーニング時のエネルギー浪費を最大30%削減することが可能です

大きな言語モデル(GPT-3など)は、トレーニングと推論中の計算ニーズにより、相当なエネルギーを必要とします。エネルギー使...

データサイエンス

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見...

AI研究

デジタルルネッサンス:NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップ...

機械学習

PyTorchモデルのパフォーマンス分析と最適化—Part2

これは、GPU上で実行されるPyTorchモデルの分析と最適化に関する一連の投稿の第二部です最初の投稿では、プロセスとその重要...

機械学習

「機械学習が間違いを comitte たとき、それはどういう意味ですか?」

「ML/AIに関する議論で、私たちの通常の「ミステイク(間違い)」の定義は意味をなすでしょうか?もしそうでない場合、なぜで...

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...