Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

Google DeepMindの研究者がDiLoCoを導入:新たな分散型・低通信マシンラーニングアルゴリズムによる効果的かつ強靭な大規模言語モデルのトレーニング

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo(Distributed Low-Communication)は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo:分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。

Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging(FedAvg)アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。

DiLoCoの輝きは、3つの基本的な柱にあります:

1. 限られた共有位置の要件:各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。

2. 通信頻度の削減:ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。

3. デバイスの異質性:クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。

DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃(0)を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃(1)を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。

C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。

要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。

この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel Distributed, Low-Communication Machine Learning Algorithm for Effective and Resilient Large Language Model Training から引用されました。元記事はMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「メーカーに会う:開発者がAI搭載ピットドロイドの背後にNVIDIA Jetsonを使う」

ゴラン・ヴクシッチは、スター・ウォーズの映画シリーズに登場するポッドレーサーを修理・保守するタイプの実世界のピットド...

AIニュース

「マルチモーダル人工知能とは?その応用と使用例」という文章です

技術革新によって定義され、技術進歩に支配される現代において、人工知能(AI)の領域は我々の生活を変革し、産業を再構築す...

機械学習

「AVIS内部:Googleの新しい視覚情報検索LLM」

「マルチモダリティは、基礎モデルの研究において最も注目されている分野の一つですGPT-4などのモデルがマルチモーダルなシナ...

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...

機械学習

ChatGPTを使った効率的なデバッグ

大規模言語モデルの力を借りて、デバッグ体験を向上させ、より速く学習する