このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

コンピュータビジョンの効率と精度を開拓する、RetNetとTransformerの融合RMTを紹介するこのAI論文

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network(RetNet)に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。

広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1%のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。

提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。

以下の人々が貢献しています:

  • 研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention(ReSA)という名前の新しいメカニズムです。
  • 計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。
  • 広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。

要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「AIサービスへの大胆な進出:億万長者ビンニー・バンサールの大局変革」

テクノロジーと電子商取引の世界では、Binny Bansalの名前はよく知られています。オンライン小売り大手Flipkartの共同創設者...

データサイエンス

「Pythonクライアントを使用してMyScaleを始める」

「マイスケールの基本から、テーブルの作成やインデックスの定義などを学び、上級のSQLベクトル検索までを探求してくださいな...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

機械学習

安定した拡散 コミュニティのAI

「ステーブルディフュージョンAIは、革新的な技術により芸術界を革命化し、創造性を高め、芸術の評価を変えています」

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...

人工知能

PaLM 2を紹介します

2023年のGoogle I/Oで、GoogleはPaLM 2という新しい言語モデルを発表しましたこのモデルは、多言語、推論、およびコーディン...