このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

コンピュータビジョンの効率と精度を開拓する、RetNetとTransformerの融合RMTを紹介するこのAI論文

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network(RetNet)に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。

広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1%のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。

提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。

以下の人々が貢献しています:

  • 研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention(ReSA)という名前の新しいメカニズムです。
  • 計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。
  • 広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。

要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見...

コンピュータサイエンス

認知的な燃焼を引き起こす:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

技術はシステムに統合されることで、ブレークスルーとなりますこの記事では、言語モデルを統合する取り組みについて探求し、...

AIニュース

「OpenAIのAI検出ツールは、AIによって生成されたコンテンツの74%を検出できない」

OpenAIは、画期的な生成型AIチャットボットChatGPTの製造元であり、最近、AI分類ツールの提供を中止したことで話題となりまし...

人工知能

「デジタル時代のユーザーセントリックデザイン:ウェブデザインとUI/UX体験に影響を与えるトレンド」

ユーザー体験に重点を置くウェブデザインの最新トレンドを紹介しましょうダークモードの普及から3D要素の統合まで、魅力的な...

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

機械学習

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシ...