『AnomalyGPTとは:産業異常を検出するための大規模ビジョン言語モデル(LVLM)に基づく新しいIADアプローチ』

AnomalyGPTは、産業異常を検出するための新しいIADアプローチで、大規模ビジョン言語モデル(LVLM)に基づいています

自然言語処理(NLP)のさまざまなタスクにおいて、GPT-3.5やLLaMAなどの大規模言語モデル(LLM)は優れたパフォーマンスを示してきました。LLMの視覚情報の解釈能力は、MiniGPT-4、BLIP-2、PandaGPTなどの最先端の技術によって最近拡張されており、視覚要素とテキスト特徴を連携させることで人工汎用知能(AGI)の分野において大きな転換をもたらしています。LVLMのIADタスクへの潜在能力は、インターネットから得られた大量のデータで事前トレーニングされているにもかかわらず制約されています。さらに、彼らの特定ドメインの知識は中程度にしか発展しておらず、オブジェクト内のローカルな特徴に対するより高い感度が必要です。IADの割り当ては、産業製品の写真で異常を見つけて特定することを試みます。

モデルは通常のサンプルのみでトレーニングされ、現実世界の例はまれで予測不能であるため、通常のサンプルから逸脱する異常なサンプルを識別する必要があります。ほとんどの現在のIADシステムは、テストサンプルに対して異常スコアを提供し、各オブジェクトクラスの通常と異常なインスタンスを区別するために手動で基準を定義するよう求めるため、実際の生産環境には適していません。中国科学院、中国科学院大学、Objecteye Inc.、武漢AI研究所の研究者は、図1に示すように、既存のIADアプローチやLVLMがIADの問題を十分に処理できないため、LVLMをベースにしたユニークなIAD手法であるAnomalyGPTを提案しています。手動の閾値調整を必要とせず、AnomalyGPTは異常とその位置を特定することができます。

図1は、AnomalyGPTを既存のIAD技術やLVLMと比較したものです。

さらに、彼らの手法は画像情報を提供し、インタラクティブな対話を促進し、ユーザーが要件と応答に応じてフォローアップクエリを行うことができます。AnomalyGPTは、わずかな通常のサンプルでコンテキスト内で学習することもでき、新しいオブジェクトに対して迅速に調整することができます。彼らは、合成された異常な視覚的テキストデータとIADの専門知識を組み込んだプロンプト埋め込みを使用して、LVLMを最適化します。ただし、IADデータを使用した直接的なトレーニングは改善する必要があります。最初にデータの希少性があります。LLaVAやPandaGPTを含む、160,000枚の写真と関連するマルチターンの会話で事前トレーニングされました。ただし、現在利用可能なIADデータセットのサンプルサイズが小さいため、直接の微調整は過学習や災害的な忘却に対して脆弱です。

これを修正するために、パラメータの微調整ではなくプロンプト埋め込みを使用してLVLMを微調整します。画像入力後に、さらにプロンプト埋め込みが挿入され、LVLMに追加のIAD情報が付加されます。2番目の困難は、細かい意味論に関連しています。彼らは、シンプルな視覚テキスト特徴マッチングベースのデコーダを提案し、ピクセルレベルの異常位置の結果を取得します。デコーダの出力は、LVLMと元のテスト画像にプロンプト埋め込みを介して提供されます。これにより、LVLMは生の画像とデコーダの出力の両方を使用して異常を識別し、判断の精度を高めることができます。彼らはMVTec-ADとVisAデータベースで包括的な実験を行います。

MVTec-ADデータセットでの教師なしトレーニングでは、93.3%の正確さ、97.4%の画像レベルのAUC、および93.1%のピクセルレベルのAUCを達成します。VisAデータセットに対して1つのショットを転送すると、77.4%の正確さ、87.4%の画像レベルのAUC、および96.2%のピクセルレベルのAUCが達成されます。一方、VisAデータセットでの教師なしトレーニング後にMVTec-ADデータセットに1つのショットを転送すると、86.1%の正確さ、94.1%の画像レベルのAUC、および95.3%のピクセルレベルのAUCが得られます。

以下は彼らの貢献の要約です:

・彼らはIAD業務の処理にLVLMの革新的な利用を提案しています。彼らのアプローチは、複数回の議論を容易にし、手動でしきい値を調整することなく異常を検出し、特定することができます。彼らの研究では、軽量な視覚テキスト特徴マッチングベースのデコーダを使用して、LLMの微細な意味の識別能力の制約に対処しています。また、LLMの制約されたテキスト出力能力の問題も解決しています。彼らの知る限り、彼らは初めてLVLMを産業用の異常検出に成功裡に応用しています。

・LVLMの固有の機能を保持し、マルチターンの会話を可能にするため、彼らはLVLMの事前学習に使用されたデータと同時にモデルをトレーニングし、ファインチューニングのためにプロンプト埋め込みを使用しています。

・彼らのアプローチは強力な転移性を維持し、新しいデータセットでのコンテキスト内のフューショット学習を行い、優れた結果を生み出すことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

エッジMLのタイプとエンタープライズのユースケース

エッジマシンラーニングにより、デバイスはAIのタスクをローカルで実行することができ、結果的に待ち時間が短縮され、データ...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

データサイエンス

マシンラーニングにおける線形回帰の幾何学的解釈と古典統計学との比較

上記の画像は、最小二乗法(OLS)または線形回帰(古典統計学では同義的に使用される言葉)の幾何学的解釈を示しています見て...

機械学習

エコジェンに会ってください:生物学者や生態学者のためにリアルな鳥の歌を生成するために設計された新しいディープラーニングのアプローチ

ディープラーニングの登場は、さまざまな分野に大きな影響を与え、さまざまな領域にその影響を広げています。注目すべき応用...

機械学習

高リスクの女性における前がん変化の予測 マンモグラフィに基づくディープラーニング手法の突破

人工知能(AI)と深層学習の進歩により、医療診断と患者ケアの向上に新たな可能性が開かれました。最近のRadiology:Artifici...

AI研究

「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」

自然言語システムが日常のシナリオでますます普及するにつれて、これらのシステムは適切に不確実性を伝える必要があります。...