Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行
アマゾン研究者の提案:ディープラーニングトレーニング用コンパイラの主要特徴「Syncfreeオプティマイザ」「コンパイラキャッシュ」「マルチスレッド実行」
機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデルアーキテクチャの導入により、勾配降下の並列化と分散戦略への新たな機会が生まれ、より大きく、複雑なモデルを広範にトレーニングすることが可能になりました。しかしこれらのモデルのサイズの指数関数的な増加により、メモリ制約やGPUの利用可能性などの問題が浮上しています。特に問題となるのは、多くのモデルが単一のGPU上に存在するRAMよりも大きいということです。事前トレーニングされた言語とビジョンモデルの間のサイズの差は、別の課題を提示しています。コンパイルのアイデアは、計算効率とモデルサイズのバランスを取る可能性がある有効な対処法です。
最近の研究では、研究チームが特にニューラルネットワークトレーニングに向けたディープラーニングコンパイラを紹介しました。マルチスレッド実行、コンパイラのキャッシュ、そして同期フリーの最適化器という3つの重要な要素を持つ彼らの研究は、通常のアプローチ(ネイティブ実装やPyTorchのXLAフレームワーク)と比較して、一般的な言語とビジョンの問題の両方に対して非常に効果的な高速化を示しました。
このディープラーニングコンパイラは、同期フリーの最適化器の実装で開発されています。最適化器は、損失関数を最小化するためにモデルパラメータを修正する役割を果たします。同期バリアは、従来の最適化器の一般的な特徴であり、分散トレーニングにおいてボトルネックとなる場合があります。一方、同期フリーの最適化器は同期の要求を軽減または廃止することを目指しており、より効果的な並列処理と計算リソースの効率的な利用が可能です。この機能は、同期によってトレーニングの速度とリソース効率が低下する場合に特に有効です。
- このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます
- このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています
- NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained
このディープラーニングコンパイラのもう一つの重要な特徴は、コンパイラのキャッシュです。一部のニューラルネットワークや計算グラフの事前コンパイル済み表現は、キャッシングのプロセスを通じて保存され、再利用されます。モデルをトレーニングするたびにネットワーク全体をゼロから再構築することは非効率です。以前に構築されたコンポーネントを保存および再利用することで、コンパイラのキャッシュはこの非効率性を軽減し、トレーニング時間を大幅に短縮することができます。この機能により、以前のコンパイル試行の利点を利用して、計算リソースを効率的に保存します。
3つ目の重要な要素は、マルチスレッド実行です。ニューラルネットワークトレーニングでは、多数の並列化可能なアクティビティが必要な場合があります。これらの操作は、マルチスレッドを使用してマルチコアプロセッサ上で同時に実行することができ、大幅な高速化が実現できます。ディープラーニングモデルのトレーニングをマルチスレッド実行に最適化することで、コンパイラはハードウェアをより効果的に活用し、ディープラーニングモデルのトレーニング速度を向上させることができます。
このディープラーニングコンパイラを、ネイティブ実装とPyTorchディープラーニングフレームワーク内のXLAフレームワークという2つの確立されたベースラインと比較することで、研究チームはこれらのコンパイラ特性の実用的な重要性を示しました。これらのパラレルを使用して、コンピュータビジョンと自然言語処理の一般的な問題を解決しました。これらのベースラインメソッドと比較して、結果はこのコンパイラが大幅な高速化とリソース効率を実現できることを示し、ディープラーニングコンパイラの重要性と有望性を強調しています。これは実世界のアプリケーションにおけるニューラルネットワークトレーニングの効果と実用性の改善に向けた重要な進歩です。
まとめると、この研究はディープラーニングの分野において大きな前進です。この研究の試験と結果は、PyTorch XLAコンパイラへの変更の効果を示しています。これらの変更は、様々なドメインや設定でのニューラルネットワークモデルのトレーニングを高速化するのに非常に役立つものです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- SalesForce AI研究所によって開発されたProGen:人工知能を使用したタンパク質エンジニアリングの飛躍的進歩
- プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します
- スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる
- CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います
- 医療画像は黒い肌に失敗する研究者がそれを修正した
- 「ハリー・ポッターとは誰なのか?Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」
- 「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」