何でもセグメント化、しかしより速く! このAIアプローチはSAMモデルの速度を向上させます

何でもセグメント化、しかしより速く! SAMモデルの速度を向上するAIアプローチ

画像内のオブジェクトの検出は、コンピュータビジョンにおける長期の課題です。オブジェクト検出アルゴリズムは、オブジェクトの周りにボックスを描いて位置を特定し、セグメンテーションアルゴリズムはピクセル単位でオブジェクトの境界を決定しようとします。画像セグメンテーションは、意味的な意味や視覚的な特徴に基づいて画像を異なる領域やオブジェクトに分割することを目指しています。これは、オブジェクト認識、シーン理解、自動運転、医療画像など、さまざまなアプリケーションにおいて重要です。

これまでに、この難しい問題に取り組むために数多くの手法やアルゴリズムが開発されてきました。従来の手法では手作業で特徴を設計し、最近の進歩ではディープラーニングモデルによるモデルが登場しました。これらのモダンな手法は驚異的な進歩を遂げ、最先端のパフォーマンスを達成し、画像理解と分析の新たな可能性を開いています。

しかし、これらのモデルには根本的な制約がありました。それらは訓練セットで見たオブジェクトに制約され、残りのオブジェクトをセグメンテーションすることができませんでした。

そして、画像セグメンテーションのゲームを完全に変えたSegment Anything Model(SAM)が登場しました。ユーザーのインタラクションプロンプトに基づいて画像内の任意のオブジェクトをセグメンテーションする能力を持つ画期的なビジョンモデルとして登場しました。これはTransformerアーキテクチャに基づいて構築され、広範なSA-1Bデータセットで訓練され、驚異的なパフォーマンスを発揮し、Segment Anythingとして知られる新たなエキサイティングなタスクへの可能性を開いています。その汎用性とポテンシャルにより、さまざまな将来のビジョンアプリケーションの基盤となる可能性があります。

しかし、SAMには完璧な点がありません。このようなパワーにはコストがかかります。SAMにとっては、複雑さがそれです。実用的なシナリオでの適用が困難になるほど計算的に要求が高いです。計算リソース要件は、特にSAMのアーキテクチャの中核を成すビジョンTransformer(ViTs)に関連しています。

SAMをより速くする方法はあるのでしょうか?答えは「はい」であり、それが「FastSAM」と呼ばれるものです。

FastSAMは、SAMモデルの産業アプリケーションへの高い需要に応えるために提案されました。FastSAMは、SAMの実行を大幅に高速化し、実用的なシナリオでの適用を可能にします。

FastSAMは、SAMをかなり高速化します。出典: https://arxiv.org/pdf/2306.12156.pdf

FastSAMは、セグメントアニシングタスクを2つの連続したステージに分割します:全インスタンスセグメンテーションとプロンプトガイド付き選択です。第1ステージでは、畳み込みニューラルネットワーク(CNN)ベースの検出器を使用して、画像内のすべてのインスタンスのセグメンテーションマスクを生成します。第2ステージでは、ユーザープロンプトに対応する関心領域を出力します。CNNの計算効率を活用することで、FastSAMはパフォーマンス品質を損なうことなく、リアルタイムのセグメントアニシングモデルの実現可能性を示します。

FastSAMの概要。出典: https://arxiv.org/pdf/2306.12156.pdf

FastSAMは、YOLACT手法に触発されたインスタンスセグメンテーションブランチを備えたオブジェクト検出器であるYOLOv8-segに基づいています。このCNN検出器をSA-1Bデータセットのわずか2%で訓練することで、FastSAMはSAMと同等のパフォーマンスを達成しながら、計算要件を劇的に削減します。提案された手法は、MS COCOでのオブジェクト提案を含む複数のダウンストリームのセグメンテーションタスクでその有効性を証明し、NVIDIA RTX 3090上で単一のプロポーザルの平均リコールにおいてSAMを上回りながら50倍高速化されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ビッグデータの力を解放する:グラフ学習の魅力的な世界

大企業は膨大な量のデータを生成し蓄積しています例えば、このデータの90%は最近の数年間に作成されたものですしかし、このう...

人工知能

「APIガバナンスによるAIインフラストラクチャのコスト削減」

APIガバナンスは、リソースの割り当てを最適化し、利用状況をモニタリングし、セキュリティを強化することによって、組織がAI...

機械学習

トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランス...

人工知能

「Oktaの顧客アイデンティティで優れたデジタル体験を提供し、新たな価値を開放しましょう」

オクターの顧客アイデンティティへのビジョンは、ユーザーが迅速に革新し、シームレスなスケールを実現し、あらゆるデジタル...

AIニュース

「ReactでOpenAIの力を解き放つ:ユーザーエクスペリエンスを革新する」

このブログでは、ReactでOpenAIを使用してユーザーエクスペリエンスを革新する方法を探求しますOpenAIをReactと統合すること...

人工知能

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法!」

人工知能の急速に進化する風景の中で、確立されたAIモデルの支配に挑戦する新たな候補が現れました。テックサークルで話題の...