学習率のチューニングにうんざりしていますか?DoGに会ってみてください:堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法

Tired of tuning the learning rate? Meet DoG a simple and parameter-free optimization method backed by robust theoretical guarantees.

テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式である「Distance over Gradients(DoG)」を提案しています。彼らは理論的に、DoG公式のわずかな変動が局所的にバウンドした確率的勾配の収束をもたらすことを示しています。

確率的プロセスには最適化されたパラメータが必要であり、学習率は依然として困難です。従来の成功した手法には、先行研究から適切な学習率を選択する方法が含まれます。適応的勾配法のような手法では、学習率パラメータを調整する必要があります。パラメータフリーの最適化では、問題の事前知識なしにほぼ最適な収束率を達成するためにアルゴリズムが設計されています。

テルアビブ大学の研究者は、CarmonとHinderの重要な知見を取り入れ、パラメータフリーのステップサイズスケジュールを開発しました。彼らはDoGを反復することで、DoGが対数的な収束率を達成する確率が高いことを示しています。ただし、DoGは常に安定しているわけではありません。その反復は最適化から遠ざかることもあります。そこで、彼らはDoGの変種である「T-DoG」を使用し、ステップサイズを対数的な因子で小さくします。これにより、収束が保証される高い確率を得ます。

彼らの結果は、SGDと比較して、コサインステップサイズスケジュールとチューニングベースの学習を使用する場合、DoGは稀に相対誤差の改善率が5%を超えることはほとんどありませんが、凸問題の場合、誤差の相対差は1%以下であり、驚くべきことです。彼らの理論はまた、DoGが感度の広範な範囲で一貫して実行されることを予測しています。研究者はまた、近代的な自然言語理解(NLU)におけるDoGの効率をテストするために、調整されたトランスフォーマーランゲージモデルを使用しました。

研究者はまた、下流タスクとしてImageNetを使用した主なファインチューニングテストベッドで限定的な実験を行いました。これらはスケールが大きくなるにつれてチューニングがよりコストがかかります。彼らはCLIPモデルをファインチューニングし、それをDoGとL-DoGと比較しました。両方のアルゴリズムは著しく悪い結果を示しました。これは反復予算が不十分なためです。

研究者は、多項式平均化を使用してモデルをゼロからトレーニングする実験も行いました。DoGは、適応勾配法と比較して、運動量0.9と学習率0.1の条件で優れたパフォーマンスを発揮します。他のチューニングフリーメソッドと比較して、DoGとL-DoGはほとんどのタスクでより優れたパフォーマンスを提供します。

DoGの結果は有望ですが、これらのアルゴリズムにはさらなる追加作業が必要です。運動量、事前パラメータ学習率、学習率のアニーリングなど、確立された技術をDoGと組み合わせる必要があります。これは理論的にも実験的にも困難です。彼らの実験は、バッチ正規化との関連性を示唆しており、頑健なトレーニング方法にもつながる可能性があります。

最後に、彼らの理論と実験は、DoGが現在の学習率チューニングに費やされている膨大な計算を、ほぼパフォーマンスにコストをかけずに節約する可能性を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ディープネットワークの活性化関数の構築

ディープニューラルネットワークの基本的な要素は、活性化関数(AF)です活性化関数は、ネットワーク内のノード(「ニューロ...

機械学習

「Nvidiaが革命的なAIチップを発表し、生成型AIアプリケーションを急速に強化する」

技術が常に限界を押し上げる時代において、Nvidiaは再びその名を刻みました。同社はGH200 Grace Hopper Superchipを発売しま...

データサイエンス

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、...

AIニュース

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

サイバー犯罪の絶え間ない変化は、新たな危険なツールの登場をもたらしました。OpenAIのChatGPTや悪名高いサイバー犯罪ツール...

機械学習

「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課...

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます