メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

『効率的なSAMの弟、メタAIが登場!パラメータ数は20分の1でランタイムは20倍速い』

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメンテーション、エッジ検出など、数多くの画像セグメンテーションタスクで優れた成果を上げています。

SAMのビジョントランスフォーマ (ViT) モデルの基盤となるのは、SA-1Bビジュアルデータセットです。このデータセットには、1100万枚の写真から10億のマスクが含まれており、与えられた画像内の任意のアイテムをセグメント化することが可能です。Segment Anythingの能力を持つことから、SAMはビジョンにおける基盤モデルに留まらず、ビジョンの外でも活用されています。

これらの利点にもかかわらず、特にViT-Hのような画像エンコーダのようなSAMアーキテクチャの高いコストは、効率の面での実用上の採用を妨げるものとなっています。

この困難に対応するため、最近のいくつかの研究論文では、SAMをプロンプトベースのインスタンスセグメンテーションに利用する際の金銭的負担を軽減する解決策が提案されています。

例えば、既存のデフォルトのViT-H画像エンコーダの専門知識の恩恵を、小さなViT画像エンコーダにも与えることができます。リアルタイムのCNNベースの設計は、Segment Anythingの処理コストを削減することができます。ViT-Tiny/-Smallのような十分にトレーニングされた軽量なViT画像エンコーダを、パフォーマンスを犠牲にすることなく利用することがこの論文では提案されています。

新しいメタAIの研究では、SAMを活用したマスク画像関連の軽量な事前学習されたViTバックボーンを作成しています。このために、研究者たちはSAMモデルで有名なMAE事前学習手法を利用して高品質の事前学習済みViTエンコーダーを確立しました。

具体的には、提案されたSAMIは、イメージパッチではなくSAMのViT-Hから特徴を再構築するためにマスク画像モデルをトレーニングし、SAMエンコーダであるViT-Hを使用して特徴埋め込みを提供します。これにより、画像のカテゴリ分類、オブジェクト識別、セグメンテーションなどの後続操作に利用できる一般的なViTバックボーンが生成されます。その後、事前学習済みの軽量エンコーダをSAMデコーダを利用してセグメンテーションやその他のタスクに適用するように調整されます。

チームはまた、現実世界での実装における品質と効率のトレードオフを持つ軽量なSAMモデルであるEfficientSAMを提供しています。

チームは、224×224の解像度を利用してImageNet上でモデルを再構成損失を用いて事前学習し、その後、対象のタスクで監督データを利用して微調整して、マスク画像事前学習の転移学習の文脈での戦略を評価しました。SAMIによって一般化可能な軽量エンコーダを学習することができます。SAMI事前学習を行ったImageNet-1Kでトレーニングされたモデルは、ViT-Tiny/-Small/-Baseのような一般化能力において優れた結果を示しました。ImageNet-1Kで100エポックで微調整された場合、ViT-Smallモデルでは82.7%のトップ1の正答率を達成し、その性能は他の最先端の画像事前学習ベースラインよりも優れています。オブジェクト検出、インスタンスセグメンテーション、意味セグメンテーションの領域では、チームは事前学習モデルをさらに改良しました。

既存の事前学習ベースラインと比較して、彼らの戦略はこれらのタスクにおいてそれらを上回ります。さらに、小さなモデルでも大幅な改善が見られます。さらに、Segment Anythingのチャレンジもモデルの評価に利用されます。このモデルは、COCO/LVISのゼロショットインスタンスセグメンテーションにおいて、FastSAMや現在の軽量SAMアルゴリズムよりも4.1AP/5.2APの改善が見られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Gradio-liteと出会う:Pyodideを使用してブラウザでインタラクティブな機械学習ベースのライブラリ(Gradio)を向上させるJavaScriptライブラリ」

Gradioは、機械学習モデルのユーザーインターフェースの作成を簡略化するオープンソースのPythonライブラリです。開発者やデ...

AIニュース

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます

著名な作家、マーガレット・アトウッド、ヴィエット・タン・グエン、フィリップ・プルマンなどの文学の巨匠たちが、人工知能...

人工知能

ChatGPT Vislaプラグインを使用してビデオを作成する方法

たった一つのプロンプトで、Visla ChatGPTプラグインはわずか数秒でスクリプトとストック画像を使用したビデオを作成します

データサイエンス

AIのマスタリング:プロンプトエンジニアリングソリューションの力

私と一緒にAIプロンプトエンジニアリングの素晴らしさを発見しましょう!ユーモアのある効果的なプロンプトの制作によって、A...

AIニュース

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

機械学習

「埋め込みを使った10の素敵なこと!【パート1】」

「クラシックな機械学習(ML)から一歩踏み出して、埋め込みはほとんどのディープラーニング(DL)のユースケースの中核です...