「ニューラルネットワークにおける記憶の解読イメージ分類のベンチマークにおけるモデルサイズ、記憶、および一般化への深い探求」

「記憶の解読イメージ分類のベンチマークにおけるニューラルネットワークのモデルサイズ、記憶、および一般化への深い探求」

統計を学ぶためには、訓練データの暗記とテストサンプルへの転送をバランスさせる必要があります。しかし、過パラメータ化されたニューラルモデルの成功は、この理論に疑問を投げかけます。これらのモデルは暗記することができ、それでも一般化がうまく行くことができます。たとえば、ランダムなラベルを正しく一致させる能力がそれを示しています。このようなモデルは、分類の完全な正確さを達成するために、つまり訓練セットを補完するために一般的に使用されます。これは、これらのモデルの一般化可能性を調査するための多数の研究を引き起こしました。

フェルドマンは最近、一定の文脈で一般化には暗記が必要かもしれないことを示しました。ここでは、「暗記」とは、理論的な基盤を持つ安定性に基づく用語で定義されます。高い暗記事例とは、モデルが訓練セットに含まれていないと正しく分類できない事例のことです。実際のニューラルネットワークでは、この用語によって訓練サンプルの暗記度を推定することができます。フェルドマンとチャンは、業界標準の基準を使用して画像を分類するためにResNetの暗記プロファイルを調査しました。

これは実際のモデルが何を覚えているかについて興味深い初期の調査ですが、根本的な問題が残っています。より大きなニューラルモデルはより多くのことを覚えますか?ニューヨークに拠点を置くGoogleの研究者たちは、このテーマについて経験的に答えを出し、画像分類の標準を完全に調査しています。彼らは、モデルサイズによって異なる暗記の軌跡を示すトレーニングサンプルの驚くべき多様性を発見しました。一部のサンプルはキャップ状の暗記を示し、他のサンプルはより大きなモデルでは暗記が減少することが明らかになっています。

さまざまなサイズの高品質なモデルを生成するために、実務家は知識の蒸留という体系的なプロセスを使用しています。具体的には、高性能な大規模(先生)モデルからガイダンスを受けて高品質な小さな(生徒)モデルを作成します。

フェルドマンの暗記の概念は、モデルサイズの範囲にわたって暗記と一般化の関係を理論的に調査するために使用されています。制御実験の結果に基づいて、彼らの貢献は次のとおりです:

  • 画像分類子のモデルの複雑さ(ResNetの深さや幅など)と暗記の関係について、定量的な調査結果を提示します。主な結果は、モデルの複雑さが増すにつれて、暗記の分布がますますバイモーダルになることを示しています。また、他の計算上実行可能な暗記評価方法や、たとえば難易度評価方法などがこの重要な傾向を捉えられないことにも言及しています。
  • モデルサイズによって異なる暗記スコアの軌跡を示す例を提供し、さらなるバイモーダル暗記の傾向を調査するために、4つの最も頻繁な軌跡タイプを特定します。特に、あいまいで間違ったラベル付けされた事例がこのパターンに従うことが分かりました。
  • 1つのホット(つまり非蒸留)生徒が暗記するサンプルに関して、研究者たちは暗記が蒸留によって妨げられる傾向を数量的な研究結果として示しています。興味深いことに、モデルサイズが増加すると暗記が改善する場合には、蒸留が主に一般化を助けることが分かります。この結果から、蒸留は難しい例の多くを暗記する必要を減らすことによって一般化を改善していると結論付けることができます。

研究者たちは、モデル複雑さ(画像分類に使用するResNetの深さと幅)と暗記の関係を定量的に分析し始めます。彼らは、2つのよく知られたデータセット(CIFAR-100とImageNet)でのResNetの深さと暗記スコアとの関係をグラフィカルに示しています。その調査結果は、彼らの初期の信念とは異なり、深さが20に達した後に暗記スコアが減少することを明らかにしました。

研究者たちは、モデル複雑さが増すにつれて、さまざまな例にわたって暗記のバイモーダル分布が増えることを結論付けています。また、暗記と例の難易度を評価する現在の計算上実行可能な手法に問題があることを示し、これらの方法がこの重要なパターンを捉えられないことを指摘しています。

研究グループは、さまざまなモデルサイズにわたる異なる暗記スコアの軌跡を持つ例を示し、バイモーダル暗記パターンをさらに掘り下げました。暗記がモデルの複雑さとともに改善するというパターンに従う不明瞭なケースと、間違ったラベルが付けられたケースが特に見つかりました。

研究は、知識を大きなインストラクターモデルからより小さな生徒モデルに転送する蒸留プロセスが暗記の減少と関連していることを数量的な分析で結論付けます。暗記されたサンプルによって暗記された一ホットの非蒸留生徒モデルの場合、このブロックは特に目立ちます。蒸留は、モデルサイズが増加するにつれて暗記が増加する場合に特に一般化を促進することを示しています。これらの証拠に基づいて、蒸留は難しい例を多く暗記する必要を減らすことによって一般化を改善すると結論付けることができます。

結論:

Googleの研究者による発見は、実用的な意味合いや将来の研究方向に大きな影響を与えるものです。まず第一に、プロキシだけを使用して特定のデータを記憶する際には注意が必要です。従来の出版物では、モデルトレーニングやモデル推論を基準としたさまざまなメトリックが、記憶スコアと効果的な代理指標として提案されています。これらの代理指標は、記憶スコアとの高い一致率を示します。しかし、研究者はこれらの代理指標が分布に大きく異なり、現実のモデルの記憶行動の重要な特徴を表現できないことを発見しました。これは、効果的に計算可能な記憶スコアの代理指標を見つけるための道筋を示唆しています。以前は、例の複雑さはあらかじめ決定されたモデルサイズに分類されていました。調査結果は、例を特徴づける際にいくつかのモデルサイズを考慮することの価値を示しています。例えば、Feldmanはデータセットのロングテール例を、あるアーキテクチャに対する最高の記憶スコアを持つものと定義しています。その結果、一つのモデルサイズで記憶された情報が別のモデルサイズに当てはまらないことが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

機械学習

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組ん...

データサイエンス

「AI開発でこれらのミスを com しないでください」

「品質の高いAIデプロイメントを開発するには、準備が全体の90%を占めます以下に、最高のAIモデルを開発するために注意すべ...

人工知能

「2023年に使用するためのトップ10のAI写真編集ソフト」

現在のデジタル時代は、あらゆるものをキャプチャして保存するための広範な範囲を提供しています。思いがけない瞬間に起こる...

機械学習

「ChatGPTとBard AIを活用するために、ソフトウェア開発者はどのように役立つことができるのでしょうか?」

以前は、開発者はコードやデバッグに多くの時間を費やしていましたが、今ではChatGPTやBard AIのおかげで、ソフトウェアエン...