スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました

Researchers at Stanford University introduced Sophia, an expandable second-order optimization method for pre-training language models.

言語モデルのトレーニングには高い初期コストがかかるため、最適化プロセスの非自明な改善は、トレーニングプロセスの完了に必要な時間とお金を劇的に削減するでしょう。Adamとその派生物は長い間最先端の技術でしたが、2次(ヘシアンベース)の最適化アルゴリズムは、ステップごとのオーバーヘッドが大きいため、ほとんど使用されていませんでした。

研究者によって提案された2次順序クリップストキャスティック最適化アルゴリズムSophiaでは、軽量な対角ヘシアンの見積もりが2次最適化の事前条件として提案されています。SophiaはAdamよりも2倍速くLLMを解決できる新しい最適化アルゴリズムです。アップデートの後に要素ごとのクリップが行われ、それは勾配の平均を取り、推定ヘシアンの平均で除算することによって見つかります。クリッピングは最悪のケースのアップデートのサイズを制限し、軌跡の非凸性とヘシアンの急速な変化の影響を軽減します。いくつかの新しいコードを追加することで、$2Mの予算を$1Mの範囲まで削減することができるかもしれません(スケーリングの法則が適用されると仮定)。

平均のステップごとの時間とメモリのオーバーヘッドは低く、Sophiaは数億2500万から7億7000万のサイズのGPT-2モデルで言語をモデリングする際に、ステップ数、総計算量、壁時計の時間の面でAdamの速度を2倍にします。研究者は、Sophiaが言語モデリングタスクの基礎となるパラメータの変動に対応できることを示しています。ランタイムの制約は損失の条件数に依存しません。

主な特徴

  • SophiaはPyTorchで簡単に実装できます。グラジェーションの前に対角ヘシアンの軽量な推定を事前条件として必要とします(最初の画像の疑似コードを参照)。
  • Sophiaは予練状態の安定性にも役立ちます。AdamやLionと比べて、勾配クリッピングがあまり頻繁に起こりません。また、焦点温度がレイヤーインデックスに応じて変化する再パラメータ化トリックは不要です。
  • Sophiaは、鋭いサイズ(大きなヘシアン)の更新を平坦な次元(小さなヘシアン)よりも重くペナルティを与えることで、すべてのパラメータ次元で一貫した損失の減少を確保します。2次元空間では、Adamは収束が遅くなります。

この取り組みの重要な側面

  • これは、限られたリソースでも、学術界がLLMの事前トレーニングを調査し、新しい効果的なアルゴリズムを開発できることを示しています。
  • 最適化の前の授業の内容を再確認するだけでなく、研究者は研究プロセス全体で理論的な推論を広範に利用しました。

明日リリース予定のコードでは、研究者は一般的に受け入れられているLRの定義のわずかに変更されたバージョンを使用しました。タイピングには便利ですが、論文のLRの定義はコンピュータコードには向いていないかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

時系列データのフーリエ変換 numpyを使用した高速畳み込みの解説

フーリエ変換アルゴリズムは、数学の中でも最も偉大な発見の一つとされていますフランスの数学者ジャン=バティスト・ジョゼ...

人工知能

「ChatGPTは、ソフトウェアエンジニアリングの質問の半分以上に対して誤った回答をします」

ChatGPTは、パデュー大学の研究者による調査によれば、517件のStack Overflowの質問のうち52%を誤って回答し、回答の77%が不...

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

人工知能

「KaggleのAIレポート2023で未来にダイブしよう - ホットなトレンドをチェックしよう」

「AIの世界について学んだことについて、世界最大のデータサイエンスと機械学習コミュニティに飛び込んでください」

AI研究

芝浦工業大学の研究者たちは、深層学習を用いて顔方向検出を革新します:隠れた顔の特徴や広がる画角の課題に挑戦しています

コンピュータビジョンと人間との相互作用において、顔の向き推定という重要なタスクは、多様な応用を持つ重要な要素として浮...

AIニュース

「トップAIランダム顔生成アプリ(2023年)」

ランダムフェースジェネレーターは、最先端の画像処理技術を使用してランダムな顔を生成します。ビッグデータ技術によって、...