「なぜより多くがより良いのか（人工知能において）」

なぜ多くがより良いのか（AIにおいて）

ニューラルネットワークの汎化性能について

少ない方が良い-Ludwig Mies van der Rohe多すぎる場合にのみ、少ない方が良い- Frank Loyd Wright

深層ニューラルネットワーク（DNN）は、機械学習の風景を根本的に変え、しばしば人工知能と機械学習の広範な分野と同義になっています。しかし、彼らの台頭は、彼らの共犯である確率的勾配降下法（SGD）なしでは想像もできなかったでしょう。

SGDは、その派生最適化アルゴリズムと共に、多くの自己学習アルゴリズムの核を形成しています。その核心はシンプルです：トレーニングデータを使用してタスクの損失を計算し、そのパラメータに関するこの損失の勾配を決定し、損失を最小化する方向にパラメータを調整します。

簡単に聞こえますが、実際のアプリケーションでは非常に強力です：SGDは、十分に表現力のあるアーキテクチャと組み合わせて使用される場合、あらゆる種類の複雑な問題とトレーニングデータに対して解決策を見つけることができます。特に、トレーニングデータ上でネットワークが完璧に動作するパラメータセットを見つけることが得意であり、これを補間領域と呼びます。しかし、ニューラルネットワークがよく汎化するためには、どのような条件の下で行われると考えられていますか？つまり、未知のテストデータ上で良いパフォーマンスを発揮するということです。

機械学習の中心には、汎化に向けた探求があります。DALL-Eが描いたイメージです。

ある意味では、ほとんど強力すぎるかもしれません：SGDの能力は、良い汎化をもたらすと期待されるトレーニングデータに限定されません。この影響力のある論文で示されているように、SGDは、ランダムにラベル付けされた一連の画像をネットワークが完璧に記憶することができます（メモリと汎化の間には深い関係があり、これについて以前に書いたことがあります）。ラベルと画像の内容の不一致があるため、これは挑戦的に見えるかもしれませんが、SGDで訓練されたニューラルネットワークにとっては驚くほど簡単です。実際、真のデータに適合させることよりも大きなチャレンジではありません。

この能力は、SGDで訓練されたNNが過学習のリスクを抱えていることを示しており、正則化手法（ノルム、早期終了、モデルサイズの縮小など）が過学習を回避するために重要になります。

古典的な統計学の観点からは、少ない方が良いので、より多い方が少ない、と簡潔に要約されています…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「なぜより多くがより良いのか（人工知能において）」

ニューラルネットワークの汎化性能について

Was this article helpful?

ビジュアルトランスフォーマー（ViT）モデルのコードに深く潜る

「データ品質とは何ですか？」

人工知能

ギル・ジェロン、Orca SecurityのCEO＆共同創設者-インタビューシリーズ

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」