Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

Google DeepMindの研究者がDiLoCoを導入:新たな分散型・低通信マシンラーニングアルゴリズムによる効果的かつ強靭な大規模言語モデルのトレーニング

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo(Distributed Low-Communication)は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo:分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。

Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging(FedAvg)アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。

DiLoCoの輝きは、3つの基本的な柱にあります:

1. 限られた共有位置の要件:各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。

2. 通信頻度の削減:ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。

3. デバイスの異質性:クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。

DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃(0)を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃(1)を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。

C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。

要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。

この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel Distributed, Low-Communication Machine Learning Algorithm for Effective and Resilient Large Language Model Training から引用されました。元記事はMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

エイントホーフェンとノースウェスタン大学の研究者が、外部のトレーニングを必要としないオンチップ学習が可能な新しいニューロモーフィックバイオセンサーを開発しました

ニューロモーフィックコンピューティングは、人間の脳の構造と機能に触発されています。ニューロモーフィックチップは、物理...

AIニュース

「パットスナップがAmazon SageMaker上で低遅延と低コストでGPT-2推論を使用した方法」

このブログ投稿は、パッツナップのシニア自然言語処理エンジニアである白子龍によって共同執筆され、序文も含まれていますGoo...

AIニュース

「Phindの新しいAIモデルは、コーディングにおいてGPT-4よりも優れており、GPT-3.5のような速度と16kのコンテキストを持っています」

“`html コーディングや技術的な問題解決では、複雑な質問に対する回答を求める際に速さと正確さのトレードオフがありま...

機械学習

「取得した文書の圧縮は言語モデルのパフォーマンスを向上させることができるのか?このAIの論文では、圧縮と選択的な拡張によって検索増強型LMを改良するためのRECOMPを紹介しています」

計算リソースを管理しながらパフォーマンスを最適化することは、ますます強力な言語モデルの時代における重要な課題です。テ...

AI研究

「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」

研究チームは地震モデルの現状を変革しようとしています。 カリフォルニア大学バークレー校、カリフォルニア大学サンタクルー...

データサイエンス

GenAIにとっての重要なデータファブリックとしてのApache Kafka

ジェンAI、チャットボット、およびミッションクリティカルな展開での大規模言語モデルのリアルタイム機械学習インフラとして...