このAI論文では、EdgeSAMを紹介していますエッジデバイス上で高速で効率的な画像セグメンテーションを進めるための機械学習を発展させています
『エッジデバイス上で高速かつ効率的な画像セグメンテーションを進めるための機械学習手法、EdgeSAM』
セグメントングエニシングモデル(SAM)は、オブジェクト検出と認識のために画像をセグメント化するAIパワードモデルです。それは、さまざまなコンピュータビジョンの課題に対する効果的な解決策です。しかし、SAMはエッジデバイスに最適化されていないため、性能の低下や高いリソース消費を引き起こすことがあります。シンガポール国立大学S-Labと上海人工知能研究所の研究者は、この問題に対処するためにEdgeSAMを開発しました。この最適化されたSAMのバリアントは、リソース制約のあるエッジデバイス上で高い性能を確保するために設計されています。
この研究は、視覚表現学習のための効率的なCNNとトランスフォーマーの設計に焦点を当てています。それは以前の研究で探索された方向で、知識蒸留を含む密な予測タスク(セマンティックセグメンテーションやオブジェクト検出など)における適用を認識しています。関連する研究には、ピクセルごとの特徴蒸留を実装するMobile-SAMや、YOLACTベースのインスタンスセグメンテーションモデルをトレーニングするFast-SAMがあります。特定のドメイン内での効率的なセグメンテーションに焦点を当てた以前の研究や、モバイルプラットフォーム上での端末実装に適したセグメンテーションモデルの探索についての最近の取り組みも強調されています。
この研究は、エッジデバイス(スマートフォンなど)でのリアルタイムインタラクティブセグメンテーションのために、計算上要求の厳しいSAMの展開の課題に取り組んでいます。最適化されたSAMバリアントであるEdgeSAMを導入することで、リアルタイムでの動作を実現しながらも精度を維持します。EdgeSAMは、SAMの出力マスクに合わせたプロンプトを利用したプロンプト認識型の知識蒸留アプローチを使用し、マスクデコーダーに特定のプロンプトを導入します。オンデバイスのAIアクセラレータに適した純粋なCNNベースのバックボーンを使用したEdgeSAMは、元のSAMに比べて実時間のエッジ展開で大幅な速度向上を達成します。
- モデルインサイトの視覚化:ディープラーニングにおけるGrad-CAMのガイド
- Amazon SageMaker Studioで生産性を向上させる:JupyterLab Spacesと生成AIツールを紹介
- LangChain表現言語とLLMを使用した検証実装のチェーン’ (LangChainひょうげんげんごとLLMをしようしたけんしょうじっそうのチェーン)
EdgeSAMは、性能を犠牲にすることなくエッジデバイス上で効率的に実行されるようにカスタマイズされています。EdgeSAMは、エッジデバイスに適したCNNベースのアーキテクチャに元のViTベースのSAM画像エンコーダを蒸留します。SAMの知識を完全に捉えるために、リサーチではプロンプトエンコーダとマスクデコーダの蒸留を行い、ループ内でボックスとポイントのプロンプトを使用します。データセットのバイアス問題に対応するために、軽量モジュールが追加されています。研究には、プロンプトインザループの知識蒸留と軽量リージョンプロポーザルネットワークの精緻優先度に対する削除研究なども含まれます。
EdgeSAMは、エッジデバイスでの展開時に、元のSAMに比べて40倍の速度向上を実現し、エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。さまざまなプロンプトの組み合わせやデータセットにわたってMobile-SAMを一貫して上回り、実世界のアプリケーションにおける有効性を示しています。EdgeSAMは、エッジ展開に最適化されており、NVIDIA 2080 Tiでは元のSAMと比較して40倍以上、iPhone 14ではMobileSAMと比較して約14倍の速度向上を実現します。プロンプトインザループの知識蒸留と軽量なリージョンプロポーザルネットワークは、性能を大幅に向上させます。
まとめると、この研究のキーハイライトは以下のポイントにまとめられます:
- EdgeSAMは、SAMの最適化バリアントです。
- スマートフォンなどのエッジデバイスでリアルタイムに展開されるよう設計されています。
- 元のSAMと比べて、EdgeSAMは40倍速くなります。
- エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。
- COCOおよびLVISデータセットでmIoUsを大幅に向上させます。
- EdgeSAMは、動的なプロンプトインザループ戦略とデータセットバイアスを解決するための軽量モジュールを統合しています。
- 研究では、さまざまなトレーニング設定、プロンプトタイプ、凍結アプローチを探索しています。
- 精緻優先度を活用した軽量リージョンプロポーザルネットワークも導入されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「LangChainとは何ですか?利用事例と利点」
- リトリーバル・オーグメンテッド・ジェネレーションを使用して、安定した拡散プロンプトを改善しましょう
- 「Amazon ComprehendのためのPDFの事前ラベル付けを自動化する」
- 『AWSプロトタイピングによるICL-GroupのAmazon SageMaker上でのコンピュータビジョンモデルの構築』
- 「2024年に探索する必要のある10の最高のGPU」
- 一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5
- このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています