学習率のチューニングにうんざりしていますか?DoGに会ってみてください:堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法

Tired of tuning the learning rate? Meet DoG a simple and parameter-free optimization method backed by robust theoretical guarantees.

テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式である「Distance over Gradients(DoG)」を提案しています。彼らは理論的に、DoG公式のわずかな変動が局所的にバウンドした確率的勾配の収束をもたらすことを示しています。

確率的プロセスには最適化されたパラメータが必要であり、学習率は依然として困難です。従来の成功した手法には、先行研究から適切な学習率を選択する方法が含まれます。適応的勾配法のような手法では、学習率パラメータを調整する必要があります。パラメータフリーの最適化では、問題の事前知識なしにほぼ最適な収束率を達成するためにアルゴリズムが設計されています。

テルアビブ大学の研究者は、CarmonとHinderの重要な知見を取り入れ、パラメータフリーのステップサイズスケジュールを開発しました。彼らはDoGを反復することで、DoGが対数的な収束率を達成する確率が高いことを示しています。ただし、DoGは常に安定しているわけではありません。その反復は最適化から遠ざかることもあります。そこで、彼らはDoGの変種である「T-DoG」を使用し、ステップサイズを対数的な因子で小さくします。これにより、収束が保証される高い確率を得ます。

彼らの結果は、SGDと比較して、コサインステップサイズスケジュールとチューニングベースの学習を使用する場合、DoGは稀に相対誤差の改善率が5%を超えることはほとんどありませんが、凸問題の場合、誤差の相対差は1%以下であり、驚くべきことです。彼らの理論はまた、DoGが感度の広範な範囲で一貫して実行されることを予測しています。研究者はまた、近代的な自然言語理解(NLU)におけるDoGの効率をテストするために、調整されたトランスフォーマーランゲージモデルを使用しました。

研究者はまた、下流タスクとしてImageNetを使用した主なファインチューニングテストベッドで限定的な実験を行いました。これらはスケールが大きくなるにつれてチューニングがよりコストがかかります。彼らはCLIPモデルをファインチューニングし、それをDoGとL-DoGと比較しました。両方のアルゴリズムは著しく悪い結果を示しました。これは反復予算が不十分なためです。

研究者は、多項式平均化を使用してモデルをゼロからトレーニングする実験も行いました。DoGは、適応勾配法と比較して、運動量0.9と学習率0.1の条件で優れたパフォーマンスを発揮します。他のチューニングフリーメソッドと比較して、DoGとL-DoGはほとんどのタスクでより優れたパフォーマンスを提供します。

DoGの結果は有望ですが、これらのアルゴリズムにはさらなる追加作業が必要です。運動量、事前パラメータ学習率、学習率のアニーリングなど、確立された技術をDoGと組み合わせる必要があります。これは理論的にも実験的にも困難です。彼らの実験は、バッチ正規化との関連性を示唆しており、頑健なトレーニング方法にもつながる可能性があります。

最後に、彼らの理論と実験は、DoGが現在の学習率チューニングに費やされている膨大な計算を、ほぼパフォーマンスにコストをかけずに節約する可能性を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの...

機械学習

AI倫理の役割:革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

人工知能

「質問、肩をすくめること、そして次は何か:変化の25年」

「Googleが設立されて以来、私たちは難しい質問に答えるために取り組み、人々が自分の質問に答えを得るのを助け、世界のため...

AI研究

マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介

LLMは大量のテキストデータを処理し、関連情報を迅速に抽出することができます。これは、検索エンジン、質問応答システム、デ...

AIニュース

開発者や企業のためのジェミニAPIとさらに新しいAIツール

「ジェミニAPIおよびそれ以外にも4つのAIツール、Imagen 2、MedLM、開発者向けのDuet AI、セキュリティオペレーション向けのD...

AIニュース

「OpenAI、マイクロソフトの支援を受けてGPT-5開発に向けて準備を進める」

次世代AI分野を指し示す大胆な動きとして、OpenAIのCEOサム・オルトマンは人気の高いChatGPTの後継機であるGPT-5の開発を示唆...