「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」

MIT researchers introduce new lightweight multi-scale attention for semantic segmentation within devices.

セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分類することを目的としています。自動運転、医療画像処理、計算写真など、セマンティックセグメンテーションが有用な現実世界のコンテキストは数多く存在します。そのため、SOTAセマンティックセグメンテーションモデルをエッジデバイスにインストールして、さまざまな消費者に利益をもたらすことへの需要が高まっています。しかし、SOTAセマンティックセグメンテーションモデルは、エッジデバイスが満たすことができない高い処理要件を持っています。これにより、これらのモデルはエッジデバイスで使用することができません。特にセマンティックセグメンテーションは、高解像度の画像と堅牢なコンテキスト情報の抽出能力を必要とする密な予測タスクの例です。そのため、画像分類で使用される効果的なモデルアーキテクチャをセマンティックセグメンテーションに適用することは適切ではありません。

高解像度の画像内の数百万の個々のピクセルを分類するように要求された場合、機械学習モデルは非常に困難な課題に直面します。最近、ビジョントランスフォーマーという新しいモデルの使用法が非常に効果的に登場しました。

トランスフォーマーの元々の目的は、言語のNLPの効率を改善することでした。そのような設定では、文の単語をトークン化し、それらの単語がどのように接続されているかを示すネットワーク図を作成します。アテンションマップは、モデルの文脈理解能力を向上させます。

アテンションマップを生成するために、ビジョントランスフォーマーは同じアイデアを使用し、画像をピクセルのパッチに分割し、各小さなパッチをトークンにエンコードします。このアテンションマップを生成するために、モデルは各ピクセルのペア間の直接的な相互作用を学習する類似性関数を使用します。これにより、モデルは画像内のすべての重要な詳細を認識するための「グローバル受容野」を作成します。

高解像度の画像には数百万のピクセルが含まれ、それらは数千のパッチに分割されるため、アテンションマップはすぐに非常に大きくなります。その結果、解像度が増加する画像を処理するために必要な計算量は二次的に増加します。

MITのチームは、新しいモデルシリーズであるEfficientViTと名付けられた彼らの新しいモデルシリーズで、アテンションマップの構築方法を単純化するために非線形の類似性関数を線形のものに置き換えました。これにより、演算が行われる順序を変更して必要な計算量を削減し、機能性やグローバル受容野を損なうことなく、入力画像のピクセル数に比例して予測を行うために必要な処理時間が線形にスケーリングします。

EfficientViTファミリーの新しいモデルは、デバイス上でセマンティックセグメンテーションを行います。EfficientViTは、ハードウェア効率の高いグローバル受容野とマルチスケール学習のための革新的な軽量マルチスケールアテンションモジュールに基づいて構築されています。これは、SOTAにインスパイアされたセマンティックセグメンテーションの以前のアプローチに基づいています。

このモジュールは、非効率なハードウェア演算の必要性を最小限に抑えながら、これら2つの重要な機能へのアクセスを提供するために作成されました。具体的には、非効率なセルフアテンションを軽量なReLUベースのグローバルアテンションで置き換え、国際的な受容野を実現することを提案しています。ReLUベースのグローバルアテンションの計算量は、行列の乗算の結合法則を利用することで二次的から線形的に削減することができます。また、softmaxのようなハードウェア集約的なアルゴリズムを使用しないため、オンデバイスのセマンティックセグメンテーションに適しています。

EfficientViTは、CityscapesやADE20Kなどの人気のあるセマンティックセグメンテーションのベンチマークデータセットを使用して、詳細な評価を行うために使用されています。以前のSOTAセマンティックセグメンテーションモデルと比較して、EfficientViTは大幅な性能向上を提供します。

以下に貢献の要点をまとめます:

  • 研究者は、デバイス上でセマンティックセグメンテーションを行うための革新的な軽量マルチスケールアテンションを開発しました。これは、グローバル受容野とマルチスケール学習を実現しながら、エッジデバイス上で優れたパフォーマンスを発揮します。
  • 研究者は、提案された軽量マルチスケールアテンションモジュールに基づいてEfficientViTという新しいモデルファミリーを開発しました。
  • このモデルは、ImageNetなどの主要なセマンティックセグメンテーションのベンチマークデータセットで、以前のSOTAセマンティックセグメンテーションモデルに比べて、モバイルで大幅な高速化を実現しています。

結論として、MITの研究者は、軽量でハードウェア効率の良い演算を使用してグローバル受容野とマルチスケール学習を実現する革新的な軽量マルチスケールアテンションモジュールを導入しました。その結果、SOTAセマンティックセグメンテーションモデルと比較して、エッジデバイスでのパフォーマンスを損なうことなく、エッジデバイス上での大幅な高速化を実現します。EfficientViTモデルはさらにスケーリングされ、他のビジョンタスクでの利用可能性がさらなる研究で調査される予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

カスタム分類モデルでの予測の品質を向上させるには、Amazon Comprehendを使用します

この記事では、Amazon Comprehendを使用してカスタム分類モデルを構築し最適化する方法について説明しますAmazon Comprehend...

コンピュータサイエンス

「アメリカでの顔認識技術は、最大の試練のひとつに直面する」

「マサチューセッツ州の警察の使用を制限する法案は、アメリカでの技術の規制の基準を設定する可能性があります」

AIニュース

「生成AIにおける高度なエンコーダとデコーダの力」

はじめに 人工知能のダイナミックな領域では、技術と創造性の融合が人間の想像力の限界を押し上げる革新的なツールを生み出し...

機械学習

「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さま...

AI研究

UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました

強化学習(RL)において、学習プロセスに人間からのフィードバックを効果的に統合することは、重要な課題として浮上していま...

機械学習

量子AI:量子コンピューティングの潜在能力を機械学習で解き明かす

この記事では、量子機械学習について、現在の課題、機会、評価、成熟度、およびタイムリーさについて、読者がより詳しく学ぶ...