プリンストン大学の研究者が、MeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は、大規模言語モデル(LLM)を微調整することができます
プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます' The condensed version is 'プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます
大きな言語モデルは、過去数ヶ月のジェネレーティブ人工知能の大成功により、急速に進化しています。これらのモデルは、驚くべき経済的および社会的変革に寄与しており、その最良の例はOpenAIによって開発されたChatGPTです。このチャットボットは、自然言語処理(NLP)と自然言語理解(NLU)に基づいており、ユーザーが人間のような意味のあるテキストを生成することができます。質問に意味を持って回答したり、長いパラグラフを要約したり、コードやメールを補完したりすることができます。PaLM、Chinchilla、BERTなどの他のLLMもAIの領域で優れたパフォーマンスを示しています。
事前に学習された言語モデルの微調整は、多くの言語関連のタスクにおいて人気のある手法です。微調整により、これらのモデルは特定のドメインに適応し、人間の指示を組み込み、個々の好みに合わせることができます。基本的には、既に学習されたLLMのパラメータを、より小さくドメイン固有のデータセットを使用して調整します。言語モデルがパラメータを増やすにつれて、微調整は逆伝播中の勾配計算の過程で計算量が多く、メモリを多く必要とします。メモリ使用量は、アクティベーションや勾配のキャッシュ、勾配履歴の保存などの関与により、推論に必要なものよりも大幅に高くなります。
最近、プリンストン大学の研究チームがメモリの問題に対する解決策を提案しました。MeZOと呼ばれるメモリ効率の高い零次勾配最適化手法は、従来のZO-SGD手法を改変して開発され、損失値の差分のみを使用して勾配を推定し、推論と同じメモリフットプリントで動作します。MeZOでは、ZO手法が2つの順方向パスのみを使用して勾配を推定できるため、メモリ効率が高いとされています。
- 「SynthIDを使ったAI生成画像の識別」
- UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」
- 初心者のための2023年の機械学習論文の読み方
MeZOアルゴリズムは、数十億のパラメータを持つ大規模な言語モデルの最適化に特に設計されています。チームが挙げた主な貢献は次のとおりです。
- MeZOは、ZO-SGD手法といくつかの変種を修正して、任意のサイズのモデルでインプレースで実行し、ほとんどメモリのオーバーヘッドを発生させずに開発されました。
- MeZOは、PEFTやLoRA、接頭辞調整などの包括的なパラメータ調整と互換性があります。
- MeZOは、同じメモリ量を使用しながら、精度やF1スコアなどの微分できない目標を改善することができます。
- 適切な事前学習により、MeZOのステップごとの最適化率とグローバル収束率は、大数のパラメータによるというよりも、特定の条件数であるランドスケープの効果的なローカルランクに依存することが保証されます。これは、収束率がパラメータの数に応じて遅くなるという以前のZOの下限とは対照的です。
- 実験では、マスクされたLMや自己回帰LMなどのさまざまなモデルタイプでのテスト、および分類、多肢選択、生成などの下流タスクで、モデルは350Mから66Bまでスケーリングされました。
- MeZOは、zero-shot、ICL、および線形プロービングに対して実験で優れたパフォーマンスを発揮し、OPT-13Bにおいては、RoBERTa-largeや通常の微調整よりも約12倍少ないメモリを消費しながら、11つのテストのうち7つで微調整と同等かそれ以上のパフォーマンスを発揮します。
評価によれば、MeZOは単一のNvidia A100 80GB GPUを使用して30兆パラメータのモデルをトレーニングすることができましたが、同じメモリ制約内ではバックプロパゲーションは2.7兆パラメータのLMのみをトレーニングすることができます。結論として、MeZOはメモリ効率の高い零次勾配最適化手法であり、大規模な言語モデルを効果的に微調整することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します
- Google Researchにおける責任あるAI:パーセプションの公平性
- Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です
- 「Google DeepMindの研究者が、チェスの課題に取り組むためのAIの多様性の力を明らかにする:計算問題解決における次の飛躍、AZ_dbの紹介」
- ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー:最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています
- 「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」
- アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです