「ConvNetは復活しているのか?ウェブスケールのデータセットとビジョントランスフォーマーの性能を解明する」
「コンボリューショナルニューラルネットワークの復活?ウェブスケールのデータセットとビジョントランスフォーマーの性能を明らかにする」
<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-30-at-9.55.22-PM-1024×585.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-30-at-9.55.22-PM-150×150.png”/><p>研究者は、コンピュータビジョンの分野で、大規模なウェブスケールのデータセットへのアクセスがある場合、ビジョントランスフォーマ(ViT)が畳み込みニューラルネットワーク(ConvNet)よりも優れているという一般的な信念に挑戦しています。彼らはNFNetと呼ばれるConvNetアーキテクチャを紹介し、約4兆個のラベル付き画像を含む巨大なデータセットであるJFT-4Bで事前トレーニングを行います。彼らの目的は、NFNetモデルのスケーリング特性を評価し、同様の計算予算を持つViTと比較していかなるパフォーマンスを発揮するかを確認することです。</p><p>近年、ViTは人気を集めており、特に大規模なデータセットを扱う場合にはConvNetを凌駕するとの広く信じられています。しかし、この考えには実証的な根拠がなく、多くの研究が弱いConvNetベースラインとViTを比較しています。さらに、ViTは遥かに大きな計算予算で事前トレーニングされており、これらのアーキテクチャ間の実際のパフォーマンスの違いについて疑問が投げかけられています。</p><p>特にResNetなどのConvNetは、コンピュータビジョンのタスクにおいて何年もの間選ばれてきました。しかし、トランスフォーマベースのモデルであるViTの台頭により、モデルのパフォーマンス評価方法が変化し、大規模なウェブスケールのデータセットで事前トレーニングされたモデルに焦点が当てられるようになりました。</p><p>研究者はConvNetアーキテクチャであるNFNetを紹介し、JFT-4Bデータセットで、アーキテクチャとトレーニング手順を重要な変更なしで事前トレーニングを行います。彼らは、NFNetモデルのパフォーマンスが、0.4kから110kのTPU-v4コアの計算時間の範囲でどのようにスケーリングするかを調べます。彼らの目標は、同様の計算リソースを使用してNFNetがViTと性能を比較できるかどうかを判断することです。</p><p>研究チームは、JFT-4Bデータセットで深さと幅が異なるさまざまなNFNetモデルをトレーニングします。彼らはこれらの事前トレーニング済みモデルをImageNetで微調整し、事前トレーニング時に使用する計算予算に対してパフォーマンスをプロットします。彼らはまた、対数-対数スケーリング則を観察し、より大きな計算予算がより良いパフォーマンスにつながることを発見します。興味深いことに、最適なモデルサイズとエポック予算は同時に増加することに気付きます。</p><p>研究チームは、最も高価な事前トレーニング済みNFNetモデルであるNFNet-F7+が、事前トレーニングに110kのTPU-v4コア時間、微調整に1.6kのTPU-v4コア時間を使用してImageNetのトップ-1の精度が90.3%を達成することを発見します。さらに、微調整の際に繰り返し拡張を導入することで、素晴らしい90.4%のトップ-1の精度が実現されます。比較的に、より大規模な事前トレーニング予算が必要なViTモデルも同様のパフォーマンスを達成します。</p><p>結論として、この研究は、同様の計算予算で訓練された場合、ViTがConvNetを大幅に上回るという一般的な信念に挑戦しています。彼らはNFNetモデルがImageNetで競争力のある結果を達成できることを示しています。この研究は、モデルのパフォーマンスにおいて計算リソースとデータの利用可能性が重要な要素であると強調しています。ViTにはその利点がありますが、NFNetのようなConvNetも、特に大規模なスケールでトレーニングされた場合には手ごわい競争相手です。この研究は、パフォーマンスと計算要件の両方を考慮した、公平でバランスの取れたアーキテクチャの評価を推奨しています。</p>
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles