このAI論文では、EdgeSAMを紹介していますエッジデバイス上で高速で効率的な画像セグメンテーションを進めるための機械学習を発展させています

『エッジデバイス上で高速かつ効率的な画像セグメンテーションを進めるための機械学習手法、EdgeSAM』

セグメントングエニシングモデル(SAM)は、オブジェクト検出と認識のために画像をセグメント化するAIパワードモデルです。それは、さまざまなコンピュータビジョンの課題に対する効果的な解決策です。しかし、SAMはエッジデバイスに最適化されていないため、性能の低下や高いリソース消費を引き起こすことがあります。シンガポール国立大学S-Labと上海人工知能研究所の研究者は、この問題に対処するためにEdgeSAMを開発しました。この最適化されたSAMのバリアントは、リソース制約のあるエッジデバイス上で高い性能を確保するために設計されています。

この研究は、視覚表現学習のための効率的なCNNとトランスフォーマーの設計に焦点を当てています。それは以前の研究で探索された方向で、知識蒸留を含む密な予測タスク(セマンティックセグメンテーションやオブジェクト検出など)における適用を認識しています。関連する研究には、ピクセルごとの特徴蒸留を実装するMobile-SAMや、YOLACTベースのインスタンスセグメンテーションモデルをトレーニングするFast-SAMがあります。特定のドメイン内での効率的なセグメンテーションに焦点を当てた以前の研究や、モバイルプラットフォーム上での端末実装に適したセグメンテーションモデルの探索についての最近の取り組みも強調されています。

この研究は、エッジデバイス(スマートフォンなど)でのリアルタイムインタラクティブセグメンテーションのために、計算上要求の厳しいSAMの展開の課題に取り組んでいます。最適化されたSAMバリアントであるEdgeSAMを導入することで、リアルタイムでの動作を実現しながらも精度を維持します。EdgeSAMは、SAMの出力マスクに合わせたプロンプトを利用したプロンプト認識型の知識蒸留アプローチを使用し、マスクデコーダーに特定のプロンプトを導入します。オンデバイスのAIアクセラレータに適した純粋なCNNベースのバックボーンを使用したEdgeSAMは、元のSAMに比べて実時間のエッジ展開で大幅な速度向上を達成します。

EdgeSAMは、性能を犠牲にすることなくエッジデバイス上で効率的に実行されるようにカスタマイズされています。EdgeSAMは、エッジデバイスに適したCNNベースのアーキテクチャに元のViTベースのSAM画像エンコーダを蒸留します。SAMの知識を完全に捉えるために、リサーチではプロンプトエンコーダとマスクデコーダの蒸留を行い、ループ内でボックスとポイントのプロンプトを使用します。データセットのバイアス問題に対応するために、軽量モジュールが追加されています。研究には、プロンプトインザループの知識蒸留と軽量リージョンプロポーザルネットワークの精緻優先度に対する削除研究なども含まれます。

EdgeSAMは、エッジデバイスでの展開時に、元のSAMに比べて40倍の速度向上を実現し、エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。さまざまなプロンプトの組み合わせやデータセットにわたってMobile-SAMを一貫して上回り、実世界のアプリケーションにおける有効性を示しています。EdgeSAMは、エッジ展開に最適化されており、NVIDIA 2080 Tiでは元のSAMと比較して40倍以上、iPhone 14ではMobileSAMと比較して約14倍の速度向上を実現します。プロンプトインザループの知識蒸留と軽量なリージョンプロポーザルネットワークは、性能を大幅に向上させます。

まとめると、この研究のキーハイライトは以下のポイントにまとめられます:

  • EdgeSAMは、SAMの最適化バリアントです。
  • スマートフォンなどのエッジデバイスでリアルタイムに展開されるよう設計されています。
  • 元のSAMと比べて、EdgeSAMは40倍速くなります。
  • エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。
  • COCOおよびLVISデータセットでmIoUsを大幅に向上させます。
  • EdgeSAMは、動的なプロンプトインザループ戦略とデータセットバイアスを解決するための軽量モジュールを統合しています。
  • 研究では、さまざまなトレーニング設定、プロンプトタイプ、凍結アプローチを探索しています。
  • 精緻優先度を活用した軽量リージョンプロポーザルネットワークも導入されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「AIと脳インプラントにより、麻痺した男性の運動と感覚が回復する」

アメリカの医師たちは、画期的な医療技術を用いて、四肢麻痺の男性に希望をもたらすため、人工知能(AI)と脳インプラントの...

AIニュース

「Pixel 8 Pro」という初めてのAI搭載スマートフォンは、現在Gemini Nanoで稼働しており、さらにAIのアップデートがPixelポートフォリオにも導入されています」

ニューフィーチャードロップは、Pixelハードウェアへのアップデートをもたらしますさらに、Gemini Nanoは、Pixel 8 Proのデバ...

機械学習

グラフの復活:グラフの年ニュースレター2023年春

今日のナレッジグラフ、グラフデータベース、グラフアナリティクス、グラフAIの現在地と今後の方向性に関するニュースと分析...

機械学習

「ゲート付き再帰型ユニット(GRU)の詳細な解説:RNNの数学的背後理論の理解」

この記事では、ゲート付き再帰ユニット(GRU)の動作について説明しますGRUは、長期短期記憶(LSTM)の事前知識があれば簡単...

AI研究

インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキ...

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...