『AnomalyGPTとは:産業異常を検出するための大規模ビジョン言語モデル(LVLM)に基づく新しいIADアプローチ』
AnomalyGPTは、産業異常を検出するための新しいIADアプローチで、大規模ビジョン言語モデル(LVLM)に基づいています
自然言語処理(NLP)のさまざまなタスクにおいて、GPT-3.5やLLaMAなどの大規模言語モデル(LLM)は優れたパフォーマンスを示してきました。LLMの視覚情報の解釈能力は、MiniGPT-4、BLIP-2、PandaGPTなどの最先端の技術によって最近拡張されており、視覚要素とテキスト特徴を連携させることで人工汎用知能(AGI)の分野において大きな転換をもたらしています。LVLMのIADタスクへの潜在能力は、インターネットから得られた大量のデータで事前トレーニングされているにもかかわらず制約されています。さらに、彼らの特定ドメインの知識は中程度にしか発展しておらず、オブジェクト内のローカルな特徴に対するより高い感度が必要です。IADの割り当ては、産業製品の写真で異常を見つけて特定することを試みます。
モデルは通常のサンプルのみでトレーニングされ、現実世界の例はまれで予測不能であるため、通常のサンプルから逸脱する異常なサンプルを識別する必要があります。ほとんどの現在のIADシステムは、テストサンプルに対して異常スコアを提供し、各オブジェクトクラスの通常と異常なインスタンスを区別するために手動で基準を定義するよう求めるため、実際の生産環境には適していません。中国科学院、中国科学院大学、Objecteye Inc.、武漢AI研究所の研究者は、図1に示すように、既存のIADアプローチやLVLMがIADの問題を十分に処理できないため、LVLMをベースにしたユニークなIAD手法であるAnomalyGPTを提案しています。手動の閾値調整を必要とせず、AnomalyGPTは異常とその位置を特定することができます。
さらに、彼らの手法は画像情報を提供し、インタラクティブな対話を促進し、ユーザーが要件と応答に応じてフォローアップクエリを行うことができます。AnomalyGPTは、わずかな通常のサンプルでコンテキスト内で学習することもでき、新しいオブジェクトに対して迅速に調整することができます。彼らは、合成された異常な視覚的テキストデータとIADの専門知識を組み込んだプロンプト埋め込みを使用して、LVLMを最適化します。ただし、IADデータを使用した直接的なトレーニングは改善する必要があります。最初にデータの希少性があります。LLaVAやPandaGPTを含む、160,000枚の写真と関連するマルチターンの会話で事前トレーニングされました。ただし、現在利用可能なIADデータセットのサンプルサイズが小さいため、直接の微調整は過学習や災害的な忘却に対して脆弱です。
- 「セマンティックカーネルへのPythonistaのイントロ」
- 「PyTorchのネステロフモーメンタムの実装は間違っていますか?」
- 「ニューラルネットワークの多様性の力を解き放つ:適応ニューロンが画像分類と非線形回帰で均一性を上回る方法」
これを修正するために、パラメータの微調整ではなくプロンプト埋め込みを使用してLVLMを微調整します。画像入力後に、さらにプロンプト埋め込みが挿入され、LVLMに追加のIAD情報が付加されます。2番目の困難は、細かい意味論に関連しています。彼らは、シンプルな視覚テキスト特徴マッチングベースのデコーダを提案し、ピクセルレベルの異常位置の結果を取得します。デコーダの出力は、LVLMと元のテスト画像にプロンプト埋め込みを介して提供されます。これにより、LVLMは生の画像とデコーダの出力の両方を使用して異常を識別し、判断の精度を高めることができます。彼らはMVTec-ADとVisAデータベースで包括的な実験を行います。
MVTec-ADデータセットでの教師なしトレーニングでは、93.3%の正確さ、97.4%の画像レベルのAUC、および93.1%のピクセルレベルのAUCを達成します。VisAデータセットに対して1つのショットを転送すると、77.4%の正確さ、87.4%の画像レベルのAUC、および96.2%のピクセルレベルのAUCが達成されます。一方、VisAデータセットでの教師なしトレーニング後にMVTec-ADデータセットに1つのショットを転送すると、86.1%の正確さ、94.1%の画像レベルのAUC、および95.3%のピクセルレベルのAUCが得られます。
以下は彼らの貢献の要約です:
・彼らはIAD業務の処理にLVLMの革新的な利用を提案しています。彼らのアプローチは、複数回の議論を容易にし、手動でしきい値を調整することなく異常を検出し、特定することができます。彼らの研究では、軽量な視覚テキスト特徴マッチングベースのデコーダを使用して、LLMの微細な意味の識別能力の制約に対処しています。また、LLMの制約されたテキスト出力能力の問題も解決しています。彼らの知る限り、彼らは初めてLVLMを産業用の異常検出に成功裡に応用しています。
・LVLMの固有の機能を保持し、マルチターンの会話を可能にするため、彼らはLVLMの事前学習に使用されたデータと同時にモデルをトレーニングし、ファインチューニングのためにプロンプト埋め込みを使用しています。
・彼らのアプローチは強力な転移性を維持し、新しいデータセットでのコンテキスト内のフューショット学習を行い、優れた結果を生み出すことができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles