プリンストン大学の研究者が、MeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は、大規模言語モデル(LLM)を微調整することができます

プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます' The condensed version is 'プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます

大きな言語モデルは、過去数ヶ月のジェネレーティブ人工知能の大成功により、急速に進化しています。これらのモデルは、驚くべき経済的および社会的変革に寄与しており、その最良の例はOpenAIによって開発されたChatGPTです。このチャットボットは、自然言語処理(NLP)と自然言語理解(NLU)に基づいており、ユーザーが人間のような意味のあるテキストを生成することができます。質問に意味を持って回答したり、長いパラグラフを要約したり、コードやメールを補完したりすることができます。PaLM、Chinchilla、BERTなどの他のLLMもAIの領域で優れたパフォーマンスを示しています。

事前に学習された言語モデルの微調整は、多くの言語関連のタスクにおいて人気のある手法です。微調整により、これらのモデルは特定のドメインに適応し、人間の指示を組み込み、個々の好みに合わせることができます。基本的には、既に学習されたLLMのパラメータを、より小さくドメイン固有のデータセットを使用して調整します。言語モデルがパラメータを増やすにつれて、微調整は逆伝播中の勾配計算の過程で計算量が多く、メモリを多く必要とします。メモリ使用量は、アクティベーションや勾配のキャッシュ、勾配履歴の保存などの関与により、推論に必要なものよりも大幅に高くなります。

最近、プリンストン大学の研究チームがメモリの問題に対する解決策を提案しました。MeZOと呼ばれるメモリ効率の高い零次勾配最適化手法は、従来のZO-SGD手法を改変して開発され、損失値の差分のみを使用して勾配を推定し、推論と同じメモリフットプリントで動作します。MeZOでは、ZO手法が2つの順方向パスのみを使用して勾配を推定できるため、メモリ効率が高いとされています。

MeZOアルゴリズムは、数十億のパラメータを持つ大規模な言語モデルの最適化に特に設計されています。チームが挙げた主な貢献は次のとおりです。

  1. MeZOは、ZO-SGD手法といくつかの変種を修正して、任意のサイズのモデルでインプレースで実行し、ほとんどメモリのオーバーヘッドを発生させずに開発されました。
  1. MeZOは、PEFTやLoRA、接頭辞調整などの包括的なパラメータ調整と互換性があります。
  1. MeZOは、同じメモリ量を使用しながら、精度やF1スコアなどの微分できない目標を改善することができます。
  1. 適切な事前学習により、MeZOのステップごとの最適化率とグローバル収束率は、大数のパラメータによるというよりも、特定の条件数であるランドスケープの効果的なローカルランクに依存することが保証されます。これは、収束率がパラメータの数に応じて遅くなるという以前のZOの下限とは対照的です。
  1. 実験では、マスクされたLMや自己回帰LMなどのさまざまなモデルタイプでのテスト、および分類、多肢選択、生成などの下流タスクで、モデルは350Mから66Bまでスケーリングされました。
  1. MeZOは、zero-shot、ICL、および線形プロービングに対して実験で優れたパフォーマンスを発揮し、OPT-13Bにおいては、RoBERTa-largeや通常の微調整よりも約12倍少ないメモリを消費しながら、11つのテストのうち7つで微調整と同等かそれ以上のパフォーマンスを発揮します。

評価によれば、MeZOは単一のNvidia A100 80GB GPUを使用して30兆パラメータのモデルをトレーニングすることができましたが、同じメモリ制約内ではバックプロパゲーションは2.7兆パラメータのLMのみをトレーニングすることができます。結論として、MeZOはメモリ効率の高い零次勾配最適化手法であり、大規模な言語モデルを効果的に微調整することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIニュース

AI(人工知能)はキッチンを乗っ取っているのか?マクドナルドがGoogleと手を結び、GenAIを展開する

ファストフード技術を再定義する動きとして、マクドナルドとGoogleは2024年からGenerative AIを展開するためのパートナーシッ...

AI研究

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデ...

AIニュース

「エンジニアは失敗を見つける使命に就いています」

マサチューセッツ工科大学の研究者たちによって開発されたアルゴリズムは、現実世界への展開前にシミュレーションされた自律...

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...

AIニュース

「GoogleはニュースのためのAIを宣伝し、ジャーナリストは置き換えられないと主張する」

「テック巨人は、AIによるツールはニュース報道の重要な役割を果たすジャーナリストの代替とする意図はないと述べています」

AIニュース

「最もテクノロジー志向のある米国の都市は、自動運転車について疑問を抱いています」

サンフランシスコの役人や住民は自動運転車に感銘を受けていませんこれは自律型車両企業にとって前に立ちはだかる課題を強調...