スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました

Researchers at Stanford University introduced Sophia, an expandable second-order optimization method for pre-training language models.

言語モデルのトレーニングには高い初期コストがかかるため、最適化プロセスの非自明な改善は、トレーニングプロセスの完了に必要な時間とお金を劇的に削減するでしょう。Adamとその派生物は長い間最先端の技術でしたが、2次(ヘシアンベース)の最適化アルゴリズムは、ステップごとのオーバーヘッドが大きいため、ほとんど使用されていませんでした。

研究者によって提案された2次順序クリップストキャスティック最適化アルゴリズムSophiaでは、軽量な対角ヘシアンの見積もりが2次最適化の事前条件として提案されています。SophiaはAdamよりも2倍速くLLMを解決できる新しい最適化アルゴリズムです。アップデートの後に要素ごとのクリップが行われ、それは勾配の平均を取り、推定ヘシアンの平均で除算することによって見つかります。クリッピングは最悪のケースのアップデートのサイズを制限し、軌跡の非凸性とヘシアンの急速な変化の影響を軽減します。いくつかの新しいコードを追加することで、$2Mの予算を$1Mの範囲まで削減することができるかもしれません(スケーリングの法則が適用されると仮定)。

平均のステップごとの時間とメモリのオーバーヘッドは低く、Sophiaは数億2500万から7億7000万のサイズのGPT-2モデルで言語をモデリングする際に、ステップ数、総計算量、壁時計の時間の面でAdamの速度を2倍にします。研究者は、Sophiaが言語モデリングタスクの基礎となるパラメータの変動に対応できることを示しています。ランタイムの制約は損失の条件数に依存しません。

主な特徴

  • SophiaはPyTorchで簡単に実装できます。グラジェーションの前に対角ヘシアンの軽量な推定を事前条件として必要とします(最初の画像の疑似コードを参照)。
  • Sophiaは予練状態の安定性にも役立ちます。AdamやLionと比べて、勾配クリッピングがあまり頻繁に起こりません。また、焦点温度がレイヤーインデックスに応じて変化する再パラメータ化トリックは不要です。
  • Sophiaは、鋭いサイズ(大きなヘシアン)の更新を平坦な次元(小さなヘシアン)よりも重くペナルティを与えることで、すべてのパラメータ次元で一貫した損失の減少を確保します。2次元空間では、Adamは収束が遅くなります。

この取り組みの重要な側面

  • これは、限られたリソースでも、学術界がLLMの事前トレーニングを調査し、新しい効果的なアルゴリズムを開発できることを示しています。
  • 最適化の前の授業の内容を再確認するだけでなく、研究者は研究プロセス全体で理論的な推論を広範に利用しました。

明日リリース予定のコードでは、研究者は一般的に受け入れられているLRの定義のわずかに変更されたバージョンを使用しました。タイピングには便利ですが、論文のLRの定義はコンピュータコードには向いていないかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...

機械学習

「GPT-4の隠れた回帰の時間経過の定量化」

「時間が経つにつれて、GPT-4は複数のデータソースにおける会話型の質問応答において後退しましたが、Wikipediaの記事に関す...

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...

AI研究

マサチューセッツ州ローウェル大学の研究者たちは、高ランクのトレーニングに低ランクの更新を使用する新しいAIメソッドであるReLoRAを提案しています

以下は、HTMLのコードを日本語に翻訳したものです(HTMLコードはそのまま表示されます): 過去10年間、より大きなパラメータ...

データサイエンス

「では、なぜ私たちはレコメンデーションシステムを気にする必要があるのでしょうか…?フィーチャリング:トンプソンサンプリングへの優しい紹介」

今日も自分自身に気づいてしまった100...01日連続で、遅い晩ごはんの箱を手に持ったまま、Netflixで見る番組を探しながら食事...

機械学習

このAI論文では、COVEメソッドを紹介しています自己検証を通じて言語モデルの幻覚に取り組むための革新的なAIアプローチです

大量のテキストドキュメントからなるコーパスは、大規模な言語モデル(LLM)を訓練するために使用され、モデルのパラメータ数...