スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました

Researchers at Stanford University introduced Sophia, an expandable second-order optimization method for pre-training language models.

言語モデルのトレーニングには高い初期コストがかかるため、最適化プロセスの非自明な改善は、トレーニングプロセスの完了に必要な時間とお金を劇的に削減するでしょう。Adamとその派生物は長い間最先端の技術でしたが、2次（ヘシアンベース）の最適化アルゴリズムは、ステップごとのオーバーヘッドが大きいため、ほとんど使用されていませんでした。

研究者によって提案された2次順序クリップストキャスティック最適化アルゴリズムSophiaでは、軽量な対角ヘシアンの見積もりが2次最適化の事前条件として提案されています。SophiaはAdamよりも2倍速くLLMを解決できる新しい最適化アルゴリズムです。アップデートの後に要素ごとのクリップが行われ、それは勾配の平均を取り、推定ヘシアンの平均で除算することによって見つかります。クリッピングは最悪のケースのアップデートのサイズを制限し、軌跡の非凸性とヘシアンの急速な変化の影響を軽減します。いくつかの新しいコードを追加することで、$2Mの予算を$1Mの範囲まで削減することができるかもしれません（スケーリングの法則が適用されると仮定）。

平均のステップごとの時間とメモリのオーバーヘッドは低く、Sophiaは数億2500万から7億7000万のサイズのGPT-2モデルで言語をモデリングする際に、ステップ数、総計算量、壁時計の時間の面でAdamの速度を2倍にします。研究者は、Sophiaが言語モデリングタスクの基礎となるパラメータの変動に対応できることを示しています。ランタイムの制約は損失の条件数に依存しません。

主な特徴

SophiaはPyTorchで簡単に実装できます。グラジェーションの前に対角ヘシアンの軽量な推定を事前条件として必要とします（最初の画像の疑似コードを参照）。
Sophiaは予練状態の安定性にも役立ちます。AdamやLionと比べて、勾配クリッピングがあまり頻繁に起こりません。また、焦点温度がレイヤーインデックスに応じて変化する再パラメータ化トリックは不要です。
Sophiaは、鋭いサイズ（大きなヘシアン）の更新を平坦な次元（小さなヘシアン）よりも重くペナルティを与えることで、すべてのパラメータ次元で一貫した損失の減少を確保します。2次元空間では、Adamは収束が遅くなります。

この取り組みの重要な側面

これは、限られたリソースでも、学術界がLLMの事前トレーニングを調査し、新しい効果的なアルゴリズムを開発できることを示しています。
最適化の前の授業の内容を再確認するだけでなく、研究者は研究プロセス全体で理論的な推論を広範に利用しました。

明日リリース予定のコードでは、研究者は一般的に受け入れられているLRの定義のわずかに変更されたバージョンを使用しました。タイピングには便利ですが、論文のLRの定義はコンピュータコードには向いていないかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました

Was this article helpful?

「このAI論文は、人間ではなくLLMを使用して、複雑さの異なる大量の教示データを作成するための手段を示しています」

中国の研究者が、脳損傷セグメンテーションのためのデータ拡張手法CarveMixを提案しています

AI研究

「テキストを科学的なベクトルグラフィックスに変換することはできるのか？このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

「Advanced Reasoning Benchmark（ARB）に会いましょう：大規模な言語モデルを評価するための新しいベンチマーク」

「ミストラル・トリスメギストス7Bにお会いしてください：神秘的で霊的なオカルトの知恵伝統に関する指示データセット...」

このAIリサーチはGAIAを紹介します：一般AIの能力の次のマイルストーンを定義するベンチマーク

DeepMindからの新しいAI研究では、有向グラフに対して二つの方向と構造に敏感な位置符号化を提案しています

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます