メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

『効率的なSAMの弟、メタAIが登場!パラメータ数は20分の1でランタイムは20倍速い』

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメンテーション、エッジ検出など、数多くの画像セグメンテーションタスクで優れた成果を上げています。

SAMのビジョントランスフォーマ (ViT) モデルの基盤となるのは、SA-1Bビジュアルデータセットです。このデータセットには、1100万枚の写真から10億のマスクが含まれており、与えられた画像内の任意のアイテムをセグメント化することが可能です。Segment Anythingの能力を持つことから、SAMはビジョンにおける基盤モデルに留まらず、ビジョンの外でも活用されています。

これらの利点にもかかわらず、特にViT-Hのような画像エンコーダのようなSAMアーキテクチャの高いコストは、効率の面での実用上の採用を妨げるものとなっています。

この困難に対応するため、最近のいくつかの研究論文では、SAMをプロンプトベースのインスタンスセグメンテーションに利用する際の金銭的負担を軽減する解決策が提案されています。

例えば、既存のデフォルトのViT-H画像エンコーダの専門知識の恩恵を、小さなViT画像エンコーダにも与えることができます。リアルタイムのCNNベースの設計は、Segment Anythingの処理コストを削減することができます。ViT-Tiny/-Smallのような十分にトレーニングされた軽量なViT画像エンコーダを、パフォーマンスを犠牲にすることなく利用することがこの論文では提案されています。

新しいメタAIの研究では、SAMを活用したマスク画像関連の軽量な事前学習されたViTバックボーンを作成しています。このために、研究者たちはSAMモデルで有名なMAE事前学習手法を利用して高品質の事前学習済みViTエンコーダーを確立しました。

具体的には、提案されたSAMIは、イメージパッチではなくSAMのViT-Hから特徴を再構築するためにマスク画像モデルをトレーニングし、SAMエンコーダであるViT-Hを使用して特徴埋め込みを提供します。これにより、画像のカテゴリ分類、オブジェクト識別、セグメンテーションなどの後続操作に利用できる一般的なViTバックボーンが生成されます。その後、事前学習済みの軽量エンコーダをSAMデコーダを利用してセグメンテーションやその他のタスクに適用するように調整されます。

チームはまた、現実世界での実装における品質と効率のトレードオフを持つ軽量なSAMモデルであるEfficientSAMを提供しています。

チームは、224×224の解像度を利用してImageNet上でモデルを再構成損失を用いて事前学習し、その後、対象のタスクで監督データを利用して微調整して、マスク画像事前学習の転移学習の文脈での戦略を評価しました。SAMIによって一般化可能な軽量エンコーダを学習することができます。SAMI事前学習を行ったImageNet-1Kでトレーニングされたモデルは、ViT-Tiny/-Small/-Baseのような一般化能力において優れた結果を示しました。ImageNet-1Kで100エポックで微調整された場合、ViT-Smallモデルでは82.7%のトップ1の正答率を達成し、その性能は他の最先端の画像事前学習ベースラインよりも優れています。オブジェクト検出、インスタンスセグメンテーション、意味セグメンテーションの領域では、チームは事前学習モデルをさらに改良しました。

既存の事前学習ベースラインと比較して、彼らの戦略はこれらのタスクにおいてそれらを上回ります。さらに、小さなモデルでも大幅な改善が見られます。さらに、Segment Anythingのチャレンジもモデルの評価に利用されます。このモデルは、COCO/LVISのゼロショットインスタンスセグメンテーションにおいて、FastSAMや現在の軽量SAMアルゴリズムよりも4.1AP/5.2APの改善が見られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

AIニュース

「Nvidiaの画期的なAIイメージパーソナライゼーション:灌流法」

AIアート作成の絶えず進化する世界において、NvidiaはPerfusionと呼ばれる革命的なテキストから画像への個人化手法を発表しま...

データサイエンス

オラクルと一緒にXRを開発しよう、エピソード6 AIサマライザー+ジェネレーター

このチュートリアルでは、ユーザーの周囲からのさまざまな入力を使用し、それをAIで処理し、要約/生成AIを返すミックスドリア...

AIニュース

「私たちの10の最大のAIの瞬間」

過去25年間の私たちのトップ10のAIの瞬間をまとめました

AI研究

天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します

2050年までに、極端な天候や気候の頻度と厳しさが増すことにより、ミュンヘン再保険会社によれば、年間100万人の命が失われ、...

機械学習

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してくだ...