このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

コンピュータビジョンの効率と精度を開拓する、RetNetとTransformerの融合RMTを紹介するこのAI論文

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network(RetNet)に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。

広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1%のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。

提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。

以下の人々が貢献しています:

  • 研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention(ReSA)という名前の新しいメカニズムです。
  • 計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。
  • 広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。

要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIコードの意図

現代のIDEには、コードの意図を含む機能がありますこれにより、コンテキストに基づいてコードに対して事前に定義されたアクシ...

機械学習

ラストマイルAIは、AiConfigをリリースしました:オープンソースの構成駆動型、ソースコントロールに対応したAIアプリケーション開発フレームワーク

AIアプリケーション開発の進化する風景の中で、AI Configは、LastMile Ai から登場し、開発者がAIモデルを統合し、管理する方...

人工知能

ChatGPTでリードマグネットのアイデアをブレインストームする

バリューパックされたリードマグネットのアイデアを考えるのに苦労している場合、ChatGPTは素晴らしいブレインストーミングツ...

機械学習

「AIがクリーンエネルギーの未来を支える方法」

人工知能は、最先端の技術と共に太陽と風の力を利用して世界を改善しています。 I AM AI ビデオシリーズの最新エピソードでは...

機械学習

「Gen-AI:楽しさ、恐怖、そして未来!」

この記事では、AIがイメージ生成に与える影響を探究し、開発者や規制などに対してそれが何を意味するのかを考察します

人工知能

「Img2Prompt AI モデルを使用して画像をプロンプトに変換する方法:ステップバイステップガイド」

「シンプルなAPI呼び出しと少しのNode.jsで画像からプロンプトを収集します」