スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました

Researchers at Stanford University introduced Sophia, an expandable second-order optimization method for pre-training language models.

言語モデルのトレーニングには高い初期コストがかかるため、最適化プロセスの非自明な改善は、トレーニングプロセスの完了に必要な時間とお金を劇的に削減するでしょう。Adamとその派生物は長い間最先端の技術でしたが、2次(ヘシアンベース)の最適化アルゴリズムは、ステップごとのオーバーヘッドが大きいため、ほとんど使用されていませんでした。

研究者によって提案された2次順序クリップストキャスティック最適化アルゴリズムSophiaでは、軽量な対角ヘシアンの見積もりが2次最適化の事前条件として提案されています。SophiaはAdamよりも2倍速くLLMを解決できる新しい最適化アルゴリズムです。アップデートの後に要素ごとのクリップが行われ、それは勾配の平均を取り、推定ヘシアンの平均で除算することによって見つかります。クリッピングは最悪のケースのアップデートのサイズを制限し、軌跡の非凸性とヘシアンの急速な変化の影響を軽減します。いくつかの新しいコードを追加することで、$2Mの予算を$1Mの範囲まで削減することができるかもしれません(スケーリングの法則が適用されると仮定)。

平均のステップごとの時間とメモリのオーバーヘッドは低く、Sophiaは数億2500万から7億7000万のサイズのGPT-2モデルで言語をモデリングする際に、ステップ数、総計算量、壁時計の時間の面でAdamの速度を2倍にします。研究者は、Sophiaが言語モデリングタスクの基礎となるパラメータの変動に対応できることを示しています。ランタイムの制約は損失の条件数に依存しません。

主な特徴

  • SophiaはPyTorchで簡単に実装できます。グラジェーションの前に対角ヘシアンの軽量な推定を事前条件として必要とします(最初の画像の疑似コードを参照)。
  • Sophiaは予練状態の安定性にも役立ちます。AdamやLionと比べて、勾配クリッピングがあまり頻繁に起こりません。また、焦点温度がレイヤーインデックスに応じて変化する再パラメータ化トリックは不要です。
  • Sophiaは、鋭いサイズ(大きなヘシアン)の更新を平坦な次元(小さなヘシアン)よりも重くペナルティを与えることで、すべてのパラメータ次元で一貫した損失の減少を確保します。2次元空間では、Adamは収束が遅くなります。

この取り組みの重要な側面

  • これは、限られたリソースでも、学術界がLLMの事前トレーニングを調査し、新しい効果的なアルゴリズムを開発できることを示しています。
  • 最適化の前の授業の内容を再確認するだけでなく、研究者は研究プロセス全体で理論的な推論を広範に利用しました。

明日リリース予定のコードでは、研究者は一般的に受け入れられているLRの定義のわずかに変更されたバージョンを使用しました。タイピングには便利ですが、論文のLRの定義はコンピュータコードには向いていないかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...

AI研究

「IBMの研究者たちは、モダリティやタスクに関係なくAIシステム向けの敵対的な入力を生成することが可能な新しい敵対的攻撃フレームワークを提案しています」

人工知能の常に進化する風景の中で、新たな懸念が浮かび上がってきました。AIモデルの脆弱性に対する逃避攻撃への対処です。...

機械学習

「Amazon Comprehend を使用して有害なコンテンツを検出しましょう」

「オンラインコミュニティは、ゲーム、ソーシャルメディア、eコマース、デート、eラーニングなどの業界全体にわたり、ユーザ...

機械学習

OpenAIのChatGPTが音声と画像の機能を発表:AI対話における革命的な飛躍

オープンAIは、AIとの人間の対話を革新するために、ChatGPTに音声と画像の機能を導入することで、大きな進化を遂げようとして...

人工知能

LLMOPS vs MLOPS AI開発における最良の選択肢を選ぶ

はじめに 人工知能(AI)の開発が急速に進化する中で、効率的な運用手法の統合が重要となっています。このニーズに対応するた...

機械学習

『私をすばやく中心に置いてください:主題拡散は、オープンドメインのパーソナライズされたテキストから画像生成を実現できるAIモデルです』

テキストから画像へのモデルは、過去1年間のAIの議論の中心でした。この分野の進歩は非常に迅速に起こり、その結果、印象的な...