「パッチのせいかもしれませんか? このAIアプローチは、ビジョントランスフォーマーの成功における主要な貢献要素を分析します」

「パッチのせいかもしれませんか? このAIアプローチはビジョントランスフォーマーの成功における主要な貢献要素を分析します」

畳み込みニューラルネットワーク(CNN)はコンピュータビジョンのタスクのバックボーンとなってきました。オブジェクト検出から画像の超解像まで、あらゆる問題に対して、CNNは行き先アーキテクチャとなっています。実際には、深層学習領域での有名な飛躍(例:AlexNetなど)は、畳み込みニューラルネットワークのおかげで可能になりました。

しかし、Transformerモデルに基づいた新しいアーキテクチャであるVision Transformer(ViT)が現れ、特に大規模なデータセットにおいて古典的な畳み込みアーキテクチャを圧倒し、有望な結果を示したことで状況は変わりました。それ以来、この分野では長年にわたってCNNで対処されてきた問題に対してViTベースのソリューションを可能にしようとしています。

ViTは、画像を処理するために自己注意層を使用しますが、これらの層の計算コストはピクセルごとの画像の数に対して二次的にスケーリングされます。そのため、ViTはまず画像を複数のパッチに分割し、それらを線形的に埋め込み、そのパッチのコレクションに直接Transformerを適用します。

元のViTの成功に続いて、多くの研究がViTアーキテクチャを改良してパフォーマンスを向上させました。自己注意を新しい操作で置き換える、他の小さな変更を行うなど。しかし、これらの変更にもかかわらず、ほとんどのViTアーキテクチャは共通のシンプルなテンプレートに従います。すべてのネットワークはネットワーク全体で均等なサイズと解像度を維持し、交互のステップで空間とチャネルのミキシングを実現することで等方性の振る舞いを示します。さらに、すべてのネットワークはパッチの埋め込みを使用してネットワークの開始時にダウンサンプリングを可能にし、シンプルで均一なミキシング設計を容易にします。

このパッチベースのアプローチは、すべてのViTアーキテクチャの共通の設計選択肢であり、全体の設計プロセスを簡素化します。そこで、質問が出てきます。ビジョンTransformerの成功は、主にパッチベースの表現によるものですか?それとも、自己注意やMLP(Multi-Layer Perceptron)などの高度で表現豊かな技術の使用によるものですか?ビジョンTransformerの優れたパフォーマンスに貢献する主要な要素は何でしょうか。

それを確かめる方法があり、それはConvMixerと呼ばれています。

ConvMixerの概要。出典:https://openreview.net/forum?id=rAnB7JSMXL

ConvMixerは、ViTのパフォーマンスを分析するために開発された畳み込みアーキテクチャです。それはViTと多くの点で非常に似ています:画像のパッチに直接作用し、ネットワーク全体で一貫した解像度を維持し、画像の異なる部分での空間的なミキシングとチャネルごとのミキシングを分離します。

ただし、ConvMixerの重要な違いは、Vision TransformerやMLP-Mixerモデルで使用される自己注意メカニズムとは異なり、標準の畳み込み層を使用してこれらの操作を実現することです。結果として、深度方向とポイント方向の畳み込み演算は、自己注意やMLP層よりも計算コストが低くなります。

この極めてシンプルなConvMixerは、同じパラメータ数を持つResNetなどの「標準的な」コンピュータビジョンモデル、および対応するViTやMLP-Mixerのバリアントよりも優れた性能を発揮します。これは、パッチベースの等方性のミキシングアーキテクチャが、よく行動するミキシング操作のほとんどの選択肢とうまく機能する強力なプリミティブであることを示しています。

ConvMixerは、標準の畳み込みのみを使用して、パッチ埋め込みの空間的およびチャネルの位置を独立してミキシングします。これは、ViTやMLP-Mixerの大きな受容野に触発された大きなカーネルサイズを使用することで、大幅なパフォーマンス向上を実現することができます。最後に、ConvMixerは、将来のパッチベースのアーキテクチャにおける新しい操作のベースラインとして機能することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

人工知能

「オッペンハイマーからジェネラティブAIへ:今日の企業にとっての貴重な教訓」

先週末、最新の大ヒット作品「オッペンハイマー」を劇場で3時間観ましたストーリー全体と結末はすでに知っていたにも関わらず...

データサイエンス

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大...

機械学習

最終的なDXAネーション

人工知能(AI)と機械学習(ML)は、医療を革新し、私たちを精密医療の時代に導いていますAI健康モデルを開発する動機は、死...

AI研究

インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキ...