何でもセグメント化、しかしより速く! このAIアプローチはSAMモデルの速度を向上させます

何でもセグメント化、しかしより速く! SAMモデルの速度を向上するAIアプローチ

画像内のオブジェクトの検出は、コンピュータビジョンにおける長期の課題です。オブジェクト検出アルゴリズムは、オブジェクトの周りにボックスを描いて位置を特定し、セグメンテーションアルゴリズムはピクセル単位でオブジェクトの境界を決定しようとします。画像セグメンテーションは、意味的な意味や視覚的な特徴に基づいて画像を異なる領域やオブジェクトに分割することを目指しています。これは、オブジェクト認識、シーン理解、自動運転、医療画像など、さまざまなアプリケーションにおいて重要です。

これまでに、この難しい問題に取り組むために数多くの手法やアルゴリズムが開発されてきました。従来の手法では手作業で特徴を設計し、最近の進歩ではディープラーニングモデルによるモデルが登場しました。これらのモダンな手法は驚異的な進歩を遂げ、最先端のパフォーマンスを達成し、画像理解と分析の新たな可能性を開いています。

しかし、これらのモデルには根本的な制約がありました。それらは訓練セットで見たオブジェクトに制約され、残りのオブジェクトをセグメンテーションすることができませんでした。

そして、画像セグメンテーションのゲームを完全に変えたSegment Anything Model(SAM)が登場しました。ユーザーのインタラクションプロンプトに基づいて画像内の任意のオブジェクトをセグメンテーションする能力を持つ画期的なビジョンモデルとして登場しました。これはTransformerアーキテクチャに基づいて構築され、広範なSA-1Bデータセットで訓練され、驚異的なパフォーマンスを発揮し、Segment Anythingとして知られる新たなエキサイティングなタスクへの可能性を開いています。その汎用性とポテンシャルにより、さまざまな将来のビジョンアプリケーションの基盤となる可能性があります。

しかし、SAMには完璧な点がありません。このようなパワーにはコストがかかります。SAMにとっては、複雑さがそれです。実用的なシナリオでの適用が困難になるほど計算的に要求が高いです。計算リソース要件は、特にSAMのアーキテクチャの中核を成すビジョンTransformer(ViTs)に関連しています。

SAMをより速くする方法はあるのでしょうか?答えは「はい」であり、それが「FastSAM」と呼ばれるものです。

FastSAMは、SAMモデルの産業アプリケーションへの高い需要に応えるために提案されました。FastSAMは、SAMの実行を大幅に高速化し、実用的なシナリオでの適用を可能にします。

FastSAMは、SAMをかなり高速化します。出典: https://arxiv.org/pdf/2306.12156.pdf

FastSAMは、セグメントアニシングタスクを2つの連続したステージに分割します:全インスタンスセグメンテーションとプロンプトガイド付き選択です。第1ステージでは、畳み込みニューラルネットワーク(CNN)ベースの検出器を使用して、画像内のすべてのインスタンスのセグメンテーションマスクを生成します。第2ステージでは、ユーザープロンプトに対応する関心領域を出力します。CNNの計算効率を活用することで、FastSAMはパフォーマンス品質を損なうことなく、リアルタイムのセグメントアニシングモデルの実現可能性を示します。

FastSAMの概要。出典: https://arxiv.org/pdf/2306.12156.pdf

FastSAMは、YOLACT手法に触発されたインスタンスセグメンテーションブランチを備えたオブジェクト検出器であるYOLOv8-segに基づいています。このCNN検出器をSA-1Bデータセットのわずか2%で訓練することで、FastSAMはSAMと同等のパフォーマンスを達成しながら、計算要件を劇的に削減します。提案された手法は、MS COCOでのオブジェクト提案を含む複数のダウンストリームのセグメンテーションタスクでその有効性を証明し、NVIDIA RTX 3090上で単一のプロポーザルの平均リコールにおいてSAMを上回りながら50倍高速化されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

AIテクノロジー

NVIDIAは、AIプロセッサの供給において日本を優先しています

人工知能(AI)技術の世界的な覇権争いを反映した重要な動きとして、NVIDIAのCEOであるJensen Huangは、日本の急増するAIプロ...

AIニュース

「犯罪者がWormGPT(ダークウェブのChatGPT)を利用する恐ろしい4つの方法」

「WormGPTは、倫理的な制約や制限を持たないダークウェブ上のAIパワードチャットボットです」

AIニュース

スタビリティAIのスタブルディフュージョンXL 1.0:AI画像生成の画期的なブレークスルー

先進的なAIスタートアップであるStability AIは、Stable Diffusion XL 1.0のローンチにより、再び生成型AIモデルの限界に挑戦...