「ニューラルネットワークにおける記憶の解読イメージ分類のベンチマークにおけるモデルサイズ、記憶、および一般化への深い探求」

「記憶の解読イメージ分類のベンチマークにおけるニューラルネットワークのモデルサイズ、記憶、および一般化への深い探求」

統計を学ぶためには、訓練データの暗記とテストサンプルへの転送をバランスさせる必要があります。しかし、過パラメータ化されたニューラルモデルの成功は、この理論に疑問を投げかけます。これらのモデルは暗記することができ、それでも一般化がうまく行くことができます。たとえば、ランダムなラベルを正しく一致させる能力がそれを示しています。このようなモデルは、分類の完全な正確さを達成するために、つまり訓練セットを補完するために一般的に使用されます。これは、これらのモデルの一般化可能性を調査するための多数の研究を引き起こしました。

フェルドマンは最近、一定の文脈で一般化には暗記が必要かもしれないことを示しました。ここでは、「暗記」とは、理論的な基盤を持つ安定性に基づく用語で定義されます。高い暗記事例とは、モデルが訓練セットに含まれていないと正しく分類できない事例のことです。実際のニューラルネットワークでは、この用語によって訓練サンプルの暗記度を推定することができます。フェルドマンとチャンは、業界標準の基準を使用して画像を分類するためにResNetの暗記プロファイルを調査しました。

これは実際のモデルが何を覚えているかについて興味深い初期の調査ですが、根本的な問題が残っています。より大きなニューラルモデルはより多くのことを覚えますか？ニューヨークに拠点を置くGoogleの研究者たちは、このテーマについて経験的に答えを出し、画像分類の標準を完全に調査しています。彼らは、モデルサイズによって異なる暗記の軌跡を示すトレーニングサンプルの驚くべき多様性を発見しました。一部のサンプルはキャップ状の暗記を示し、他のサンプルはより大きなモデルでは暗記が減少することが明らかになっています。

さまざまなサイズの高品質なモデルを生成するために、実務家は知識の蒸留という体系的なプロセスを使用しています。具体的には、高性能な大規模（先生）モデルからガイダンスを受けて高品質な小さな（生徒）モデルを作成します。

フェルドマンの暗記の概念は、モデルサイズの範囲にわたって暗記と一般化の関係を理論的に調査するために使用されています。制御実験の結果に基づいて、彼らの貢献は次のとおりです：

画像分類子のモデルの複雑さ（ResNetの深さや幅など）と暗記の関係について、定量的な調査結果を提示します。主な結果は、モデルの複雑さが増すにつれて、暗記の分布がますますバイモーダルになることを示しています。また、他の計算上実行可能な暗記評価方法や、たとえば難易度評価方法などがこの重要な傾向を捉えられないことにも言及しています。
モデルサイズによって異なる暗記スコアの軌跡を示す例を提供し、さらなるバイモーダル暗記の傾向を調査するために、4つの最も頻繁な軌跡タイプを特定します。特に、あいまいで間違ったラベル付けされた事例がこのパターンに従うことが分かりました。
1つのホット（つまり非蒸留）生徒が暗記するサンプルに関して、研究者たちは暗記が蒸留によって妨げられる傾向を数量的な研究結果として示しています。興味深いことに、モデルサイズが増加すると暗記が改善する場合には、蒸留が主に一般化を助けることが分かります。この結果から、蒸留は難しい例の多くを暗記する必要を減らすことによって一般化を改善していると結論付けることができます。

研究者たちは、モデル複雑さ（画像分類に使用するResNetの深さと幅）と暗記の関係を定量的に分析し始めます。彼らは、2つのよく知られたデータセット（CIFAR-100とImageNet）でのResNetの深さと暗記スコアとの関係をグラフィカルに示しています。その調査結果は、彼らの初期の信念とは異なり、深さが20に達した後に暗記スコアが減少することを明らかにしました。

研究者たちは、モデル複雑さが増すにつれて、さまざまな例にわたって暗記のバイモーダル分布が増えることを結論付けています。また、暗記と例の難易度を評価する現在の計算上実行可能な手法に問題があることを示し、これらの方法がこの重要なパターンを捉えられないことを指摘しています。

研究グループは、さまざまなモデルサイズにわたる異なる暗記スコアの軌跡を持つ例を示し、バイモーダル暗記パターンをさらに掘り下げました。暗記がモデルの複雑さとともに改善するというパターンに従う不明瞭なケースと、間違ったラベルが付けられたケースが特に見つかりました。

研究は、知識を大きなインストラクターモデルからより小さな生徒モデルに転送する蒸留プロセスが暗記の減少と関連していることを数量的な分析で結論付けます。暗記されたサンプルによって暗記された一ホットの非蒸留生徒モデルの場合、このブロックは特に目立ちます。蒸留は、モデルサイズが増加するにつれて暗記が増加する場合に特に一般化を促進することを示しています。これらの証拠に基づいて、蒸留は難しい例を多く暗記する必要を減らすことによって一般化を改善すると結論付けることができます。

結論:

Googleの研究者による発見は、実用的な意味合いや将来の研究方向に大きな影響を与えるものです。まず第一に、プロキシだけを使用して特定のデータを記憶する際には注意が必要です。従来の出版物では、モデルトレーニングやモデル推論を基準としたさまざまなメトリックが、記憶スコアと効果的な代理指標として提案されています。これらの代理指標は、記憶スコアとの高い一致率を示します。しかし、研究者はこれらの代理指標が分布に大きく異なり、現実のモデルの記憶行動の重要な特徴を表現できないことを発見しました。これは、効果的に計算可能な記憶スコアの代理指標を見つけるための道筋を示唆しています。以前は、例の複雑さはあらかじめ決定されたモデルサイズに分類されていました。調査結果は、例を特徴づける際にいくつかのモデルサイズを考慮することの価値を示しています。例えば、Feldmanはデータセットのロングテール例を、あるアーキテクチャに対する最高の記憶スコアを持つものと定義しています。その結果、一つのモデルサイズで記憶された情報が別のモデルサイズに当てはまらないことが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaff

Was this article helpful?

93 out of 132 found this helpful

「ニューラルネットワークにおける記憶の解読イメージ分類のベンチマークにおけるモデルサイズ、記憶、および一般化への深い探求」

Was this article helpful?

『BOSSと出会ってください：新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習（RL）フレームワーク、LLMガイダンス』

機械学習

単一のマシンで複数のCUDAバージョンを管理する：包括的なガイド

「SDXL 1.0の登場」

Relume AIによって生成されたワイヤーフレームとサイトマップ

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

「アルトマンのスティーブ・ジョブズモーメントとしてのOpenAIのCEO」

拡散モデルの利点と制約