このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

コンピュータビジョンの効率と精度を開拓する、RetNetとTransformerの融合RMTを紹介するこのAI論文

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network(RetNet)に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。

広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1%のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。

提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。

以下の人々が貢献しています:

  • 研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention(ReSA)という名前の新しいメカニズムです。
  • 計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。
  • 広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。

要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

作曲家:AIツールを使った投資の学び方

もし投資の世界について理解することが苦手なら、Composer(AI投資ツール)があなたの解決策かもしれません

人工知能

変革の風 生成AIがサイバーセキュリティを革新している方法

「カスタマイズされたモデルへの移行、アナリストの強化、セキュリティベンダーとのパートナーシップを通じて、NTT DATAは新...

AIニュース

元アップル社員が生成型AIをデスクトップにもたらす方法

常に進化するテックのランドスケープの中で、元Appleの従業員であるコンラッド・クレイマー、キム・ベベレット、アリ・ウェイ...

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...

AIニュース

GoogleのAIスタジオ:ジェミニの創造的な宇宙への入り口!

Googleは、AI Studioの発売を通じて、開発者向けの画期的な革新を実現しました。このWebベースのプラットフォームは、Gemini ...

AIニュース

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか?もはや銀行を荒ら...