スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました
Researchers at Stanford University introduced Sophia, an expandable second-order optimization method for pre-training language models.
言語モデルのトレーニングには高い初期コストがかかるため、最適化プロセスの非自明な改善は、トレーニングプロセスの完了に必要な時間とお金を劇的に削減するでしょう。Adamとその派生物は長い間最先端の技術でしたが、2次(ヘシアンベース)の最適化アルゴリズムは、ステップごとのオーバーヘッドが大きいため、ほとんど使用されていませんでした。
研究者によって提案された2次順序クリップストキャスティック最適化アルゴリズムSophiaでは、軽量な対角ヘシアンの見積もりが2次最適化の事前条件として提案されています。SophiaはAdamよりも2倍速くLLMを解決できる新しい最適化アルゴリズムです。アップデートの後に要素ごとのクリップが行われ、それは勾配の平均を取り、推定ヘシアンの平均で除算することによって見つかります。クリッピングは最悪のケースのアップデートのサイズを制限し、軌跡の非凸性とヘシアンの急速な変化の影響を軽減します。いくつかの新しいコードを追加することで、$2Mの予算を$1Mの範囲まで削減することができるかもしれません(スケーリングの法則が適用されると仮定)。
平均のステップごとの時間とメモリのオーバーヘッドは低く、Sophiaは数億2500万から7億7000万のサイズのGPT-2モデルで言語をモデリングする際に、ステップ数、総計算量、壁時計の時間の面でAdamの速度を2倍にします。研究者は、Sophiaが言語モデリングタスクの基礎となるパラメータの変動に対応できることを示しています。ランタイムの制約は損失の条件数に依存しません。
- このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します
- 「Ph.D.学生や研究者向けの無料オンラインコース10選」
- サムスンのAI研究者が、ニューラルヘアカットを紹介しましたこれは、ビデオや画像から人間の髪の毛のストランドベースのジオメトリを再構築するための新しいAI手法です
主な特徴
- SophiaはPyTorchで簡単に実装できます。グラジェーションの前に対角ヘシアンの軽量な推定を事前条件として必要とします(最初の画像の疑似コードを参照)。
- Sophiaは予練状態の安定性にも役立ちます。AdamやLionと比べて、勾配クリッピングがあまり頻繁に起こりません。また、焦点温度がレイヤーインデックスに応じて変化する再パラメータ化トリックは不要です。
- Sophiaは、鋭いサイズ(大きなヘシアン)の更新を平坦な次元(小さなヘシアン)よりも重くペナルティを与えることで、すべてのパラメータ次元で一貫した損失の減少を確保します。2次元空間では、Adamは収束が遅くなります。
この取り組みの重要な側面
- これは、限られたリソースでも、学術界がLLMの事前トレーニングを調査し、新しい効果的なアルゴリズムを開発できることを示しています。
- 最適化の前の授業の内容を再確認するだけでなく、研究者は研究プロセス全体で理論的な推論を広範に利用しました。
明日リリース予定のコードでは、研究者は一般的に受け入れられているLRの定義のわずかに変更されたバージョンを使用しました。タイピングには便利ですが、論文のLRの定義はコンピュータコードには向いていないかもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」
- 新しいAIの研究は、事前学習済みおよび指示微調整モデルのゼロショットタスクの一般化性能を改善するために、コンテキスト内の指導学習(ICIL)がどのように機能するかを説明しています
- 「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」
- アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです
- UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ
- 「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」
- UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです