Learn more about Search Results Adam - Page 2

DL Notes 高度な勾配降下法

以前の記事では、勾配降下法について基本的な概念とその種類の最適化における主な課題を要約しましたしかし、スティーブンスティカスティック勾配法のみを取り上げました...

「RetinaNetとKerasCVを使用した物体検出」

画像セグメンテーションをベースにしたミニプロジェクトを終えた後(こちらをご覧ください)、コンピュータビジョンの一環として、別の一般的なタスクに取り掛かる準備ができました:オブジェクト検出ですオブジェクト検出とは...

「CMU研究者がニューラルネットワークの挙動における重尾データとネットワークの深層との相互作用が最適化ダイナミクスの形成に与える重要な洞察を発見」

ニューラルネットワーク(NN)の最適化の興味深い性質が次第に増えてきており、これらは最適化の古典的な手法では説明が難しいものです。同様に、研究チームは各性質の力学的な原因についての理解度が異なります。AdamやBatch Normalizationなどの効果的なトレーニングツールについては、多くの努力が行われており、それらの効果を説明するための可能性のある説明が提案されていますが、その証拠は一部にしか説得力がなく、理論的な理解はほとんどありません。グロッキングや安定性の限界などの他の発見は、即座の実用的な示唆を持っていないかもしれませんが、NNの最適化の特徴を研究する新しい方法を提供しています。これらの現象は通常単独で考慮されますが、完全に異なるものとは言えず、それらが共有する具体的な原因はわかっていません。特定の文脈でのNNのトレーニングダイナミクスに関するより良い理解は、アルゴリズムの改善につながる可能性があります。そのため、共通点はさらなる調査のための貴重なツールとなるでしょう。 この研究では、カーネギーメロン大学の研究チームがNN最適化における現象を特定し、これまでの観察に新たな視点を提供することを目指しています。研究チームは完全な説明を提供することを主張していませんが、高いレベルのアイデアに対して強力な定性的および定量的な証拠を提示し、既存の複数の説明に自然に適合し、起源のより一貫した絵を示唆しています。具体的には、研究チームは自然データにおけるペアグループの外れ値の存在を示し、これがネットワークの最適化ダイナミクスに大きな影響を与えることを示しています。これらのグループには、初期化時およびトレーニングのほとんどの段階でネットワークの出力を支配する相対的に大きな特徴が含まれています。これらの特徴のもう一つの特徴は、大きく一貫した逆勾配を提供することです。つまり、一方のグループの損失を減少させるためにそのグループの勾配に従うと、他のグループの損失が同様の量だけ増加します。この構造のため、研究チームはこれらを「対立信号」と呼んでいます。これらの特徴は、目標タスクと非自明な相関関係を共有していますが、通常は「正しい」(例:人間の揃った)信号ではありません。 多くの場合、これらの特徴は「相関と因果関係のジレンマ」を完璧に具体化しています。たとえば、明るい青い空の背景はCIFARの画像のラベルを決定するものではありませんが、ほとんどの場合は飛行機の画像に現れます。その他の特徴としては、トラックや車の画像におけるホイールやヘッドライトの存在、または書かれたテキストにおけるコロンの後には「the」または改行トークンが続くという点などがあります。図1はCIFAR-10でGDを使用してトレーニングしたResNet-18のトレーニング損失と、一部の主要な外れ値グループとそれらの損失を示しています。 図1:対立する信号を持つ外れ値は、ニューラルネットワークのトレーニングダイナミクスに重要な影響を与えます。さらに、GDを使用してCIFAR-10でトレーニングしたResNet-18のトータルロスを持つ一部の代表的な外れ値グループのロスが表示されています。これらのグループは一貫して矛盾した信号を示し(例えば、ホイールとヘッドライトはトラックや車を示唆することがあります)、これらのグループのロスはトレーニングの間に振動し、全体的なロスの突発的なスパイクに対応しており、安定性現象の根本的な原因のようです。 トレーニングの初期段階では、ネットワークは重み空間の狭い谷に入り、対立するグループの勾配を慎重にバランスさせますが、損失のランドスケープのシャープ化により、ネットワークは特定の軸に沿って成長する振幅の大きな振動をするようになり、このバランスが崩れます。空の背景の例に戻ると、あるステップでは、全てのスカイ画像においてクラス「飛行機」により高い確率が与えられ、次のステップでその効果が反転します。要するに、「空=飛行機」のサブネットワークが成長して収縮します。この振動の直接の結果は、スカイが背景にある飛行機の画像におけるネットワークの損失が急激に増加して減少することと、スカイを持たない非飛行機の画像における反対の効果が起こることです。その結果、これらのグループの勾配は方向を交互に変えながら、大きさも増加します。これらのペアはデータの一部を表しているため、この動作は全体のトレーニング損失からはすぐにはわかりませんが、最終的にはトレーニングの進行に伴い、広範な損失のスパイクにつながります。 これらの2つのイベント間には明らかな直接的な対応関係がありますので、研究チームは対立するシグナルが安定性の境界現象を直接引き起こすと推測しています。研究チームはまた、最も影響を与えるシグナルは時間とともに複雑さを増していくようです。研究チームは、視覚アーキテクチャとトレーニングのハイパーパラメータの範囲にわたってこの実験を繰り返しました。正確なグループとその出現順序は変化しますが、パターンは一貫して現れます。研究チームはまた、自然なテキストの次のトークン予測におけるトランスフォーマーと、単純な1D関数に対する小規模なReLU MLPについてもこの動作を検証しました。ただし、研究チームは最も明確な直感を提供するためにイメージを使用しています。彼らの実験のほとんどはこの効果を分離するためにGDを使用しますが、研究チームはSGDでも類似のパターンを観察しました。本論文の主な貢献は、NN最適化中における対立するシグナルの存在、普及性、および大きな影響を示すことです。 さらに、研究チームは、これらのシグナルが観察されるトレーニングダイナミクスの原因についての彼らの現在の最良理解を、支持する実験と共に提示しています。特に、研究チームは深さと最急降下法の方法に起因するものであるという証拠を提供しています。研究チームは、おもちゃの例と簡単なモデル上の2層線形ネットの分析を交えながら、この議論を補完しています。特筆すべきことに、初歩的ではありますが、彼らの説明によってトレーニング中のNNの振る舞いに関する具体的な定性的予測が可能になります。これは、研究チームが実験的に確認しています。また、これはSGDとAdamの比較を通じて研究チームがハイライトした、現代の確率的最適化手法を研究する新しいレンズを提供します。研究チームは、対立するシグナルとさまざまなNN最適化および一般化現象との可能性の接続を見ています。これには、理解、投射/弾き出し、単純さのバイアス、二重降下、およびシャープネス認識最適化などが含まれます。

Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo(Distributed Low-Communication)は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo:分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。 Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging(FedAvg)アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。 DiLoCoの輝きは、3つの基本的な柱にあります: 1. 限られた共有位置の要件:各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。 2. 通信頻度の削減:ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。 3. デバイスの異質性:クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。 DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃(0)を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃(1)を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。 C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。 要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。 この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel…

「AIシステムのリスク評価方法を学びましょう」

「人工知能(AI)は急速に進化する分野であり、社会の多くの側面を改善し変革する可能性を持っています2023年、AI技術の採用のペースは、強力な基礎モデル(FM)の開発と生成型AI能力の向上によりさらに加速しましたAmazonでは、私たちは複数の生成型AIを立ち上げています...」

神経協調フィルタリングでレコメンデーションエンジンのマスタリング

この記事は、Neural Collaborative Filtering(NCF)を使用したおすすめエンジンの作成についての手引書ですおすすめエンジンの基本を簡単に紹介した後、私たちは踊りながら進んでいきます...

「CNNによる特徴抽出の探求」

「畳み込みニューラルネットワークは、機械学習を用いた画像分類タスクにおいて、今日の基礎となっていますただし、分類の前に行う別の非常に有用なタスクは、抽出することです...」

新しいOpenAIの理事会を解説

「AIおよびテクノロジー分野に波紋を広げた驚くべき出来事の中で、人工知能分野のリーディングカンパニーであるOpenAIが最近、重要なリーダーシップの変革を遂げましたSam Altman氏がCEOの地位に劇的に復帰し、それに伴って役員の再編成が行われるなど、これらの変化によって[…]」

WhatsAppチャットで言語モデルを構築しましょう

チャットボットは、デジタルプラットフォームとのやり取りを確実に変えてきました高度な言語モデルの能力の向上にもかかわらず、複雑なタスクを処理する能力において、ユーザー...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us