「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」

MIT researchers introduce new lightweight multi-scale attention for semantic segmentation within devices.

セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分類することを目的としています。自動運転、医療画像処理、計算写真など、セマンティックセグメンテーションが有用な現実世界のコンテキストは数多く存在します。そのため、SOTAセマンティックセグメンテーションモデルをエッジデバイスにインストールして、さまざまな消費者に利益をもたらすことへの需要が高まっています。しかし、SOTAセマンティックセグメンテーションモデルは、エッジデバイスが満たすことができない高い処理要件を持っています。これにより、これらのモデルはエッジデバイスで使用することができません。特にセマンティックセグメンテーションは、高解像度の画像と堅牢なコンテキスト情報の抽出能力を必要とする密な予測タスクの例です。そのため、画像分類で使用される効果的なモデルアーキテクチャをセマンティックセグメンテーションに適用することは適切ではありません。

高解像度の画像内の数百万の個々のピクセルを分類するように要求された場合、機械学習モデルは非常に困難な課題に直面します。最近、ビジョントランスフォーマーという新しいモデルの使用法が非常に効果的に登場しました。

トランスフォーマーの元々の目的は、言語のNLPの効率を改善することでした。そのような設定では、文の単語をトークン化し、それらの単語がどのように接続されているかを示すネットワーク図を作成します。アテンションマップは、モデルの文脈理解能力を向上させます。

アテンションマップを生成するために、ビジョントランスフォーマーは同じアイデアを使用し、画像をピクセルのパッチに分割し、各小さなパッチをトークンにエンコードします。このアテンションマップを生成するために、モデルは各ピクセルのペア間の直接的な相互作用を学習する類似性関数を使用します。これにより、モデルは画像内のすべての重要な詳細を認識するための「グローバル受容野」を作成します。

高解像度の画像には数百万のピクセルが含まれ、それらは数千のパッチに分割されるため、アテンションマップはすぐに非常に大きくなります。その結果、解像度が増加する画像を処理するために必要な計算量は二次的に増加します。

MITのチームは、新しいモデルシリーズであるEfficientViTと名付けられた彼らの新しいモデルシリーズで、アテンションマップの構築方法を単純化するために非線形の類似性関数を線形のものに置き換えました。これにより、演算が行われる順序を変更して必要な計算量を削減し、機能性やグローバル受容野を損なうことなく、入力画像のピクセル数に比例して予測を行うために必要な処理時間が線形にスケーリングします。

EfficientViTファミリーの新しいモデルは、デバイス上でセマンティックセグメンテーションを行います。EfficientViTは、ハードウェア効率の高いグローバル受容野とマルチスケール学習のための革新的な軽量マルチスケールアテンションモジュールに基づいて構築されています。これは、SOTAにインスパイアされたセマンティックセグメンテーションの以前のアプローチに基づいています。

このモジュールは、非効率なハードウェア演算の必要性を最小限に抑えながら、これら2つの重要な機能へのアクセスを提供するために作成されました。具体的には、非効率なセルフアテンションを軽量なReLUベースのグローバルアテンションで置き換え、国際的な受容野を実現することを提案しています。ReLUベースのグローバルアテンションの計算量は、行列の乗算の結合法則を利用することで二次的から線形的に削減することができます。また、softmaxのようなハードウェア集約的なアルゴリズムを使用しないため、オンデバイスのセマンティックセグメンテーションに適しています。

EfficientViTは、CityscapesやADE20Kなどの人気のあるセマンティックセグメンテーションのベンチマークデータセットを使用して、詳細な評価を行うために使用されています。以前のSOTAセマンティックセグメンテーションモデルと比較して、EfficientViTは大幅な性能向上を提供します。

以下に貢献の要点をまとめます:

  • 研究者は、デバイス上でセマンティックセグメンテーションを行うための革新的な軽量マルチスケールアテンションを開発しました。これは、グローバル受容野とマルチスケール学習を実現しながら、エッジデバイス上で優れたパフォーマンスを発揮します。
  • 研究者は、提案された軽量マルチスケールアテンションモジュールに基づいてEfficientViTという新しいモデルファミリーを開発しました。
  • このモデルは、ImageNetなどの主要なセマンティックセグメンテーションのベンチマークデータセットで、以前のSOTAセマンティックセグメンテーションモデルに比べて、モバイルで大幅な高速化を実現しています。

結論として、MITの研究者は、軽量でハードウェア効率の良い演算を使用してグローバル受容野とマルチスケール学習を実現する革新的な軽量マルチスケールアテンションモジュールを導入しました。その結果、SOTAセマンティックセグメンテーションモデルと比較して、エッジデバイスでのパフォーマンスを損なうことなく、エッジデバイス上での大幅な高速化を実現します。EfficientViTモデルはさらにスケーリングされ、他のビジョンタスクでの利用可能性がさらなる研究で調査される予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Pythonにおけるサンプリング技術と比較の実践」

私は妻と一緒にクリスマスツリーを組み立てていました私たちは地下室に行って、木を持ち上げて階上に運び、下から上に向かっ...

データサイエンス

技術と金融の交差点における成功

シタデルの創設者兼CEOであるケン・グリフィン氏がMITを訪問し、テクノロジーが取引や投資を続けて変革していく方法について...

データサイエンス

現代のサイバーセキュリティの脅威に対処する効果的な方法

「サイバーセキュリティの脅威は技術の進歩に伴って増加していますこの記事では一般的な脅威の扱い方をカバーします」

データサイエンス

「不確定性pyと混沌pyを用いた多項式混沌展開による混沌の秩序化」

3年前、イタリアのローマから引っ越して、アメリカのオハイオ州シンシナティに住み始めましたシンシナティ大学からの博士課...