「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」
MIT researchers introduce new lightweight multi-scale attention for semantic segmentation within devices.
セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分類することを目的としています。自動運転、医療画像処理、計算写真など、セマンティックセグメンテーションが有用な現実世界のコンテキストは数多く存在します。そのため、SOTAセマンティックセグメンテーションモデルをエッジデバイスにインストールして、さまざまな消費者に利益をもたらすことへの需要が高まっています。しかし、SOTAセマンティックセグメンテーションモデルは、エッジデバイスが満たすことができない高い処理要件を持っています。これにより、これらのモデルはエッジデバイスで使用することができません。特にセマンティックセグメンテーションは、高解像度の画像と堅牢なコンテキスト情報の抽出能力を必要とする密な予測タスクの例です。そのため、画像分類で使用される効果的なモデルアーキテクチャをセマンティックセグメンテーションに適用することは適切ではありません。
高解像度の画像内の数百万の個々のピクセルを分類するように要求された場合、機械学習モデルは非常に困難な課題に直面します。最近、ビジョントランスフォーマーという新しいモデルの使用法が非常に効果的に登場しました。
トランスフォーマーの元々の目的は、言語のNLPの効率を改善することでした。そのような設定では、文の単語をトークン化し、それらの単語がどのように接続されているかを示すネットワーク図を作成します。アテンションマップは、モデルの文脈理解能力を向上させます。
- 「Google DeepMind Researchがニューラルネットワークにおける理解現象の謎を探求:記憶と一般化の相互作用を明らかにする」
- ヘリオットワット大学とAlana AIの研究者は、大規模言語モデルに基づく新しい具現化対話エージェント「FurChat」を提案しています
- テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています
アテンションマップを生成するために、ビジョントランスフォーマーは同じアイデアを使用し、画像をピクセルのパッチに分割し、各小さなパッチをトークンにエンコードします。このアテンションマップを生成するために、モデルは各ピクセルのペア間の直接的な相互作用を学習する類似性関数を使用します。これにより、モデルは画像内のすべての重要な詳細を認識するための「グローバル受容野」を作成します。
高解像度の画像には数百万のピクセルが含まれ、それらは数千のパッチに分割されるため、アテンションマップはすぐに非常に大きくなります。その結果、解像度が増加する画像を処理するために必要な計算量は二次的に増加します。
MITのチームは、新しいモデルシリーズであるEfficientViTと名付けられた彼らの新しいモデルシリーズで、アテンションマップの構築方法を単純化するために非線形の類似性関数を線形のものに置き換えました。これにより、演算が行われる順序を変更して必要な計算量を削減し、機能性やグローバル受容野を損なうことなく、入力画像のピクセル数に比例して予測を行うために必要な処理時間が線形にスケーリングします。
EfficientViTファミリーの新しいモデルは、デバイス上でセマンティックセグメンテーションを行います。EfficientViTは、ハードウェア効率の高いグローバル受容野とマルチスケール学習のための革新的な軽量マルチスケールアテンションモジュールに基づいて構築されています。これは、SOTAにインスパイアされたセマンティックセグメンテーションの以前のアプローチに基づいています。
このモジュールは、非効率なハードウェア演算の必要性を最小限に抑えながら、これら2つの重要な機能へのアクセスを提供するために作成されました。具体的には、非効率なセルフアテンションを軽量なReLUベースのグローバルアテンションで置き換え、国際的な受容野を実現することを提案しています。ReLUベースのグローバルアテンションの計算量は、行列の乗算の結合法則を利用することで二次的から線形的に削減することができます。また、softmaxのようなハードウェア集約的なアルゴリズムを使用しないため、オンデバイスのセマンティックセグメンテーションに適しています。
EfficientViTは、CityscapesやADE20Kなどの人気のあるセマンティックセグメンテーションのベンチマークデータセットを使用して、詳細な評価を行うために使用されています。以前のSOTAセマンティックセグメンテーションモデルと比較して、EfficientViTは大幅な性能向上を提供します。
以下に貢献の要点をまとめます:
- 研究者は、デバイス上でセマンティックセグメンテーションを行うための革新的な軽量マルチスケールアテンションを開発しました。これは、グローバル受容野とマルチスケール学習を実現しながら、エッジデバイス上で優れたパフォーマンスを発揮します。
- 研究者は、提案された軽量マルチスケールアテンションモジュールに基づいてEfficientViTという新しいモデルファミリーを開発しました。
- このモデルは、ImageNetなどの主要なセマンティックセグメンテーションのベンチマークデータセットで、以前のSOTAセマンティックセグメンテーションモデルに比べて、モバイルで大幅な高速化を実現しています。
結論として、MITの研究者は、軽量でハードウェア効率の良い演算を使用してグローバル受容野とマルチスケール学習を実現する革新的な軽量マルチスケールアテンションモジュールを導入しました。その結果、SOTAセマンティックセグメンテーションモデルと比較して、エッジデバイスでのパフォーマンスを損なうことなく、エッジデバイス上での大幅な高速化を実現します。EfficientViTモデルはさらにスケーリングされ、他のビジョンタスクでの利用可能性がさらなる研究で調査される予定です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「UCIとハーバードの研究者が、ユーザーに機械学習モデルを説明するTalkToModelを紹介する」
- マイクロソフトリサーチがBatteryMLを紹介:バッテリー劣化における機械学習のためのオープンソースツール
- 「ポーズマッピング技術によって、脳性麻痺の患者を遠隔で評価することができます」
- マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました
- 大規模な言語モデルは本当に数学をできるのか?この人工知能AIの研究はMathGLMを紹介します:計算機なしで数学問題を解くための頑健なモデル
- 「量子ブースト:cuQuantumとPennyLaneによるスーパーコンピュータ上でのシミュレーション」
- 「研究者たちが、数千の変形可能な結び目を発見」