「初心者のためのイメージ分類」

「初心者でもわかるイメージ分類マスタークラス」

2014年のVGGとResNetのアーキテクチャ

Unsplashからの画像—著者によって変更されました

画像分類は、トップのテック企業での就職に備えるために、私がInterview Kickstartで教えた最初のトピックでした。私はそこで講義の準備をしていたときにこの記事を書きました。したがって、このトピックに不慣れな場合、この直感的な説明が役立つかもしれません。

この記事では、VGGとResNetモデルを見ていきます。どちらも、コンピュータビジョンの畳み込みニューラルネットワーク(CNN)の開発において画期的かつ影響力のある作品です。VGG[2]は2014年にオックスフォード大学の研究グループから提案され、ResNet[3]はマイクロソフトの研究者によって2015年に提案されました。

さあ、始めましょう。

VGGとは何ですか?

VGGVisual Geometry Groupの略称で、オックスフォード大学の研究グループです。2014年に、彼らは画像分類タスクのための深層畳み込みニューラルネットワークのアーキテクチャを設計し、自分たちの名前であるVGGと名付けました。[2]

VGGネットワークのアーキテクチャ

このネットワークはいくつかの構成で提供されており、すべて同じアーキテクチャですが、レイヤーの数が異なります。最も有名なものはVGG16とVGG19です。VGG19はより深く、VGG16よりも性能が優れています。簡単のため、ここではVGG16に焦点を当てます。

VGG16のアーキテクチャは次の画像に示されています。16個のレイヤー、つまり13個の畳み込み層および3個の完全接続層が含まれています。

VGG16のアーキテクチャ—著者による画像

これは非常にシンプルなアーキテクチャで、最初の5つのブロックには畳み込み層が続き、その後に最大プールが続きます。6番目のブロックには完全接続層のみが含まれています。

すべての畳み込み層は3×3のフィルタを使用し、ストライド=1であり、すべての最大プーリング層は2×2でストライド=2ですので、入力特徴マップの幅と高さを半分にします。これは出力特徴マップのサイズを縮小するため、ダウンサンプリングと呼ばれます。

畳み込み層は64枚のフィルタで開始し、プーリングごとに倍増して512枚のフィルタになるまで続きます。すべての畳み込み層は「same」のパディングを使用して…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more