学習率のチューニングにうんざりしていますか?DoGに会ってみてください:堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法
Tired of tuning the learning rate? Meet DoG a simple and parameter-free optimization method backed by robust theoretical guarantees.
テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式である「Distance over Gradients(DoG)」を提案しています。彼らは理論的に、DoG公式のわずかな変動が局所的にバウンドした確率的勾配の収束をもたらすことを示しています。
確率的プロセスには最適化されたパラメータが必要であり、学習率は依然として困難です。従来の成功した手法には、先行研究から適切な学習率を選択する方法が含まれます。適応的勾配法のような手法では、学習率パラメータを調整する必要があります。パラメータフリーの最適化では、問題の事前知識なしにほぼ最適な収束率を達成するためにアルゴリズムが設計されています。
テルアビブ大学の研究者は、CarmonとHinderの重要な知見を取り入れ、パラメータフリーのステップサイズスケジュールを開発しました。彼らはDoGを反復することで、DoGが対数的な収束率を達成する確率が高いことを示しています。ただし、DoGは常に安定しているわけではありません。その反復は最適化から遠ざかることもあります。そこで、彼らはDoGの変種である「T-DoG」を使用し、ステップサイズを対数的な因子で小さくします。これにより、収束が保証される高い確率を得ます。
- このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています
- マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム
- 「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」
彼らの結果は、SGDと比較して、コサインステップサイズスケジュールとチューニングベースの学習を使用する場合、DoGは稀に相対誤差の改善率が5%を超えることはほとんどありませんが、凸問題の場合、誤差の相対差は1%以下であり、驚くべきことです。彼らの理論はまた、DoGが感度の広範な範囲で一貫して実行されることを予測しています。研究者はまた、近代的な自然言語理解(NLU)におけるDoGの効率をテストするために、調整されたトランスフォーマーランゲージモデルを使用しました。
研究者はまた、下流タスクとしてImageNetを使用した主なファインチューニングテストベッドで限定的な実験を行いました。これらはスケールが大きくなるにつれてチューニングがよりコストがかかります。彼らはCLIPモデルをファインチューニングし、それをDoGとL-DoGと比較しました。両方のアルゴリズムは著しく悪い結果を示しました。これは反復予算が不十分なためです。
研究者は、多項式平均化を使用してモデルをゼロからトレーニングする実験も行いました。DoGは、適応勾配法と比較して、運動量0.9と学習率0.1の条件で優れたパフォーマンスを発揮します。他のチューニングフリーメソッドと比較して、DoGとL-DoGはほとんどのタスクでより優れたパフォーマンスを提供します。
DoGの結果は有望ですが、これらのアルゴリズムにはさらなる追加作業が必要です。運動量、事前パラメータ学習率、学習率のアニーリングなど、確立された技術をDoGと組み合わせる必要があります。これは理論的にも実験的にも困難です。彼らの実験は、バッチ正規化との関連性を示唆しており、頑健なトレーニング方法にもつながる可能性があります。
最後に、彼らの理論と実験は、DoGが現在の学習率チューニングに費やされている膨大な計算を、ほぼパフォーマンスにコストをかけずに節約する可能性を示唆しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています
- 「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」
- 「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」
- マイクロソフトが「TypeChat」をリリース:型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ
- 「テキストゥアをご紹介します:3Dメッシュのテキストゥアリングのための新しい人工知能(AI)フレームワーク」
- 「Amazon Transcribe Toxicity Detectionを使用して、会話中の有害な言語をフラグ付けします」
- 「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」