このAI論文では、EdgeSAMを紹介していますエッジデバイス上で高速で効率的な画像セグメンテーションを進めるための機械学習を発展させています

『エッジデバイス上で高速かつ効率的な画像セグメンテーションを進めるための機械学習手法、EdgeSAM』

セグメントングエニシングモデル(SAM)は、オブジェクト検出と認識のために画像をセグメント化するAIパワードモデルです。それは、さまざまなコンピュータビジョンの課題に対する効果的な解決策です。しかし、SAMはエッジデバイスに最適化されていないため、性能の低下や高いリソース消費を引き起こすことがあります。シンガポール国立大学S-Labと上海人工知能研究所の研究者は、この問題に対処するためにEdgeSAMを開発しました。この最適化されたSAMのバリアントは、リソース制約のあるエッジデバイス上で高い性能を確保するために設計されています。

この研究は、視覚表現学習のための効率的なCNNとトランスフォーマーの設計に焦点を当てています。それは以前の研究で探索された方向で、知識蒸留を含む密な予測タスク(セマンティックセグメンテーションやオブジェクト検出など)における適用を認識しています。関連する研究には、ピクセルごとの特徴蒸留を実装するMobile-SAMや、YOLACTベースのインスタンスセグメンテーションモデルをトレーニングするFast-SAMがあります。特定のドメイン内での効率的なセグメンテーションに焦点を当てた以前の研究や、モバイルプラットフォーム上での端末実装に適したセグメンテーションモデルの探索についての最近の取り組みも強調されています。

この研究は、エッジデバイス(スマートフォンなど)でのリアルタイムインタラクティブセグメンテーションのために、計算上要求の厳しいSAMの展開の課題に取り組んでいます。最適化されたSAMバリアントであるEdgeSAMを導入することで、リアルタイムでの動作を実現しながらも精度を維持します。EdgeSAMは、SAMの出力マスクに合わせたプロンプトを利用したプロンプト認識型の知識蒸留アプローチを使用し、マスクデコーダーに特定のプロンプトを導入します。オンデバイスのAIアクセラレータに適した純粋なCNNベースのバックボーンを使用したEdgeSAMは、元のSAMに比べて実時間のエッジ展開で大幅な速度向上を達成します。

EdgeSAMは、性能を犠牲にすることなくエッジデバイス上で効率的に実行されるようにカスタマイズされています。EdgeSAMは、エッジデバイスに適したCNNベースのアーキテクチャに元のViTベースのSAM画像エンコーダを蒸留します。SAMの知識を完全に捉えるために、リサーチではプロンプトエンコーダとマスクデコーダの蒸留を行い、ループ内でボックスとポイントのプロンプトを使用します。データセットのバイアス問題に対応するために、軽量モジュールが追加されています。研究には、プロンプトインザループの知識蒸留と軽量リージョンプロポーザルネットワークの精緻優先度に対する削除研究なども含まれます。

EdgeSAMは、エッジデバイスでの展開時に、元のSAMに比べて40倍の速度向上を実現し、エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。さまざまなプロンプトの組み合わせやデータセットにわたってMobile-SAMを一貫して上回り、実世界のアプリケーションにおける有効性を示しています。EdgeSAMは、エッジ展開に最適化されており、NVIDIA 2080 Tiでは元のSAMと比較して40倍以上、iPhone 14ではMobileSAMと比較して約14倍の速度向上を実現します。プロンプトインザループの知識蒸留と軽量なリージョンプロポーザルネットワークは、性能を大幅に向上させます。

まとめると、この研究のキーハイライトは以下のポイントにまとめられます:

  • EdgeSAMは、SAMの最適化バリアントです。
  • スマートフォンなどのエッジデバイスでリアルタイムに展開されるよう設計されています。
  • 元のSAMと比べて、EdgeSAMは40倍速くなります。
  • エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。
  • COCOおよびLVISデータセットでmIoUsを大幅に向上させます。
  • EdgeSAMは、動的なプロンプトインザループ戦略とデータセットバイアスを解決するための軽量モジュールを統合しています。
  • 研究では、さまざまなトレーニング設定、プロンプトタイプ、凍結アプローチを探索しています。
  • 精緻優先度を活用した軽量リージョンプロポーザルネットワークも導入されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

2023年にフォローすべきトップ10のAIインフルエンサー

イントロダクション 先端技術と驚くべき可能性によって駆動される世界で、AIの絶えず進化する領域に遅れをとらないことは、ス...

機械学習

「人工知能(AI)におけるアナログコンピュータの使用」

アナログコンピュータは、電気の電圧、機械の動き、または流体の圧力などの物理的な量を、解決すべき問題に対応する量に類似...

データサイエンス

『Audio-LDMを使用してテキストを音声に変換する完全ガイド』

Audio-LDMモデルを使用して、テキストから音声生成の力を解き放つAIの力

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

データサイエンス

「良い説明がすべてです」

私は大規模な言語モデル(LLM)をしばらく使っていますが、個人のプロジェクトや日常の仕事の一環として使用しています多くの...

AIニュース

「イーロン・マスク氏、中国での超知能の台頭に警鐘を鳴らす」と警告

著名な起業家であるイーロン・マスク氏が最近、Twitter Spacesのコールで大胆な発言をし、中国における超知能の可能性につい...