「初心者のためのイメージ分類」
「初心者でもわかるイメージ分類マスタークラス」
2014年のVGGとResNetのアーキテクチャ
画像分類は、トップのテック企業での就職に備えるために、私がInterview Kickstartで教えた最初のトピックでした。私はそこで講義の準備をしていたときにこの記事を書きました。したがって、このトピックに不慣れな場合、この直感的な説明が役立つかもしれません。
この記事では、VGGとResNetモデルを見ていきます。どちらも、コンピュータビジョンの畳み込みニューラルネットワーク(CNN)の開発において画期的かつ影響力のある作品です。VGG[2]は2014年にオックスフォード大学の研究グループから提案され、ResNet[3]はマイクロソフトの研究者によって2015年に提案されました。
さあ、始めましょう。
VGGとは何ですか?
VGGはVisual Geometry Groupの略称で、オックスフォード大学の研究グループです。2014年に、彼らは画像分類タスクのための深層畳み込みニューラルネットワークのアーキテクチャを設計し、自分たちの名前であるVGGと名付けました。[2]
VGGネットワークのアーキテクチャ
このネットワークはいくつかの構成で提供されており、すべて同じアーキテクチャですが、レイヤーの数が異なります。最も有名なものはVGG16とVGG19です。VGG19はより深く、VGG16よりも性能が優れています。簡単のため、ここではVGG16に焦点を当てます。
VGG16のアーキテクチャは次の画像に示されています。16個のレイヤー、つまり13個の畳み込み層および3個の完全接続層が含まれています。
これは非常にシンプルなアーキテクチャで、最初の5つのブロックには畳み込み層が続き、その後に最大プールが続きます。6番目のブロックには完全接続層のみが含まれています。
すべての畳み込み層は3×3のフィルタを使用し、ストライド=1であり、すべての最大プーリング層は2×2でストライド=2ですので、入力特徴マップの幅と高さを半分にします。これは出力特徴マップのサイズを縮小するため、ダウンサンプリングと呼ばれます。
畳み込み層は64枚のフィルタで開始し、プーリングごとに倍増して512枚のフィルタになるまで続きます。すべての畳み込み層は「same」のパディングを使用して…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles