メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

『効率的なSAMの弟、メタAIが登場!パラメータ数は20分の1でランタイムは20倍速い』

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメンテーション、エッジ検出など、数多くの画像セグメンテーションタスクで優れた成果を上げています。

SAMのビジョントランスフォーマ (ViT) モデルの基盤となるのは、SA-1Bビジュアルデータセットです。このデータセットには、1100万枚の写真から10億のマスクが含まれており、与えられた画像内の任意のアイテムをセグメント化することが可能です。Segment Anythingの能力を持つことから、SAMはビジョンにおける基盤モデルに留まらず、ビジョンの外でも活用されています。

これらの利点にもかかわらず、特にViT-Hのような画像エンコーダのようなSAMアーキテクチャの高いコストは、効率の面での実用上の採用を妨げるものとなっています。

この困難に対応するため、最近のいくつかの研究論文では、SAMをプロンプトベースのインスタンスセグメンテーションに利用する際の金銭的負担を軽減する解決策が提案されています。

例えば、既存のデフォルトのViT-H画像エンコーダの専門知識の恩恵を、小さなViT画像エンコーダにも与えることができます。リアルタイムのCNNベースの設計は、Segment Anythingの処理コストを削減することができます。ViT-Tiny/-Smallのような十分にトレーニングされた軽量なViT画像エンコーダを、パフォーマンスを犠牲にすることなく利用することがこの論文では提案されています。

新しいメタAIの研究では、SAMを活用したマスク画像関連の軽量な事前学習されたViTバックボーンを作成しています。このために、研究者たちはSAMモデルで有名なMAE事前学習手法を利用して高品質の事前学習済みViTエンコーダーを確立しました。

具体的には、提案されたSAMIは、イメージパッチではなくSAMのViT-Hから特徴を再構築するためにマスク画像モデルをトレーニングし、SAMエンコーダであるViT-Hを使用して特徴埋め込みを提供します。これにより、画像のカテゴリ分類、オブジェクト識別、セグメンテーションなどの後続操作に利用できる一般的なViTバックボーンが生成されます。その後、事前学習済みの軽量エンコーダをSAMデコーダを利用してセグメンテーションやその他のタスクに適用するように調整されます。

チームはまた、現実世界での実装における品質と効率のトレードオフを持つ軽量なSAMモデルであるEfficientSAMを提供しています。

チームは、224×224の解像度を利用してImageNet上でモデルを再構成損失を用いて事前学習し、その後、対象のタスクで監督データを利用して微調整して、マスク画像事前学習の転移学習の文脈での戦略を評価しました。SAMIによって一般化可能な軽量エンコーダを学習することができます。SAMI事前学習を行ったImageNet-1Kでトレーニングされたモデルは、ViT-Tiny/-Small/-Baseのような一般化能力において優れた結果を示しました。ImageNet-1Kで100エポックで微調整された場合、ViT-Smallモデルでは82.7%のトップ1の正答率を達成し、その性能は他の最先端の画像事前学習ベースラインよりも優れています。オブジェクト検出、インスタンスセグメンテーション、意味セグメンテーションの領域では、チームは事前学習モデルをさらに改良しました。

既存の事前学習ベースラインと比較して、彼らの戦略はこれらのタスクにおいてそれらを上回ります。さらに、小さなモデルでも大幅な改善が見られます。さらに、Segment Anythingのチャレンジもモデルの評価に利用されます。このモデルは、COCO/LVISのゼロショットインスタンスセグメンテーションにおいて、FastSAMや現在の軽量SAMアルゴリズムよりも4.1AP/5.2APの改善が見られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「トランスフォーマーアーキテクチャとBERT、GPT、T5の台頭:初心者向けガイド」

「人工知能(AI)の広大で絶えず進化する領域において、印象を残すだけでなく、その全体の軌道を再定義する革新が存在します...

データサイエンス

UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています

最近、深層学習の実用的な成功は、高次元で多様なデータの処理とモデリングにおけるもので、指数関数的に成長しています。こ...

AIニュース

Adobe Illustratorの「Generative Recolor」AIであなたの画像を変換しましょう

デザインソフトウェアの有名企業Adobeは、デザイナーとマーケターを強化する発表をしました。Adobe Illustratorの最先端のAI...

データサイエンス

「PaLM 2はどのように動作しますか?完全ガイド」

「PaLM 2の機能を完全に解説するガイドで、内部の仕組みを探求しましょうこの強力な言語モデルがどのように人間らしいテキス...

機械学習

「AIガバナンスの12のコア原則」

ベテランのAI開発者であるサラは、道徳的な十字路に立たされた一つのアルゴリズムは効率を最大化する一方で、プライバシーの...

AIニュース

「HeyGenを使ってリアルなAI生成アバターを作る方法」

このAIによるアバターツールは非常に先進的であり、人々はそれが本物か偽物か判断できません