Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム
Google DeepMindの研究者がDiLoCoを導入:新たな分散型・低通信マシンラーニングアルゴリズムによる効果的かつ強靭な大規模言語モデルのトレーニング
現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo(Distributed Low-Communication)は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo:分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。
Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging(FedAvg)アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。
DiLoCoの輝きは、3つの基本的な柱にあります:
- 『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』
- KAISTの研究者たちは、地面セグメンテーションを利用した堅牢なグローバル登録フレームワークであるQuatro++を導入しましたこれは、LiDAR SLAMにおけるループクロージングに利用されます
- 日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています
1. 限られた共有位置の要件:各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。
2. 通信頻度の削減:ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。
3. デバイスの異質性:クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。
DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃(0)を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃(1)を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。
C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。
要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。
この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel Distributed, Low-Communication Machine Learning Algorithm for Effective and Resilient Large Language Model Training から引用されました。元記事はMarkTechPostです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 研究者は、解釈可能で効率的な量子風機械学習のためのテンソルネットワークを研究しています
- 未来を開く:放射線科におけるGPT-4の輝かしい約束
- ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します
- 韓国大学の研究者たちは、HierSpeech++を発表しました:高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ
- このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています
- 東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました
- このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています