Learn more about Search Results MiniGPT-4

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル(LLMs)の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。 マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます: (i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル(LMMs)が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。 (ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な(サブ)タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、(新しい)ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。 図1:LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。 清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus(大規模な言語とビジョンアシスタント)を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。 例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。 “` さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです: • 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。 • 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。 • ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。

中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。 BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理(NLP)の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか? Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました:p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。 p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです: 1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。 2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。 ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。 NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。 を日本語に翻訳すると、 となります。

この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。 幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。 Woodpeckerは、次の5つのキープロセスからなります: 1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。 2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。 3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。 4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。 5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。 このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。 研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。 MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。 LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。 まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

「ウッドペッカーは、言語モデルにおけるAIの精度を革新している方法とは?」

中国の腾讯YouTu Labと中国科学技術大学(USTC)のAI研究者グループが、Multimodal Large Language Models(MLLM)の幻想問題に取り組むために開発されたAIフレームワーク「Woodpecker」を発表しました。この開発は画期的なものです。本記事では、Woodpeckerの意義、機能、およびAI産業への変革の可能性について探っていきます。 幻想の課題を理解する AIモデルは、訓練セットと何の関係もない結果を自信満々に表示するという幻想という混乱した問題に直面しています。そこで救世主として登場するのがWoodpeckerです。Woodpeckerは、特に視覚とテキストデータを統合したGPT-4VなどのMultimodal Large Language Models(MLLM)に焦点を当てています。 詳しくはこちらをご覧ください:Woodpecker:Multimodal Large Language Modelsの幻想修正 Woodpeckerのソリューション:幻覚の修正 Woodpeckerは名前だけでなく、強力なツールです。この画期的なフレームワークは、GPT-3.5 Turboを始めとする3つのAIモデルを使用して幻想を検出および修正します。重要なステップである視覚的な知識の検証やキーコンセプトの抽出など、5つのステップからなる手順を使用しています。 素晴らしい結果:精度の30.66%の向上 ここで魔法が起こります。Woodpeckerに関する研究では、基準モデルと比較して驚異的な30.66%の精度向上が示されています。この数字は、WoodpeckerがAIモデルの性能を大幅に改善することができるかを示しています。 Woodpeckerのワークフローの一部を垣間見る Woodpeckerの操作の微妙なニュアンスを見てみましょう。5つのステップはタスクシンフォニーを構成しています。まず、テキストが参照する重要なアイテムをリストアップします。次に、これらのアイテムに関するクエリを投げ、それらの数量や特性を調べます。視覚的な知識の検証というプロセスを通じて、フレームワークは専門家モデルを使用してこれらの質問に答えます。そしてここで魔法が起こります:質問-回答ペアは、画像の属性やオブジェクトレベルでの主張を含む視覚的な知識ベースに変換されます。最終的に、Woodpeckerは幻覚を取り除き、関連する証拠を追加し、視覚的な知識ベースをガイドとして使用します。 オープンソースでインタラクティブ:AIの応用を広げる Woodpeckerの開発者たちは情報の共有を目指しています。ソースコードは親切に提供されており、広いAIコミュニティはこの画期的なフレームワークを調査して活用することができます。また、インタラクティブなシステムデモも用意されており、ユーザーはWoodpeckerの能力を直に確認し、幻覚の修正能力を理解することができます。 Woodpeckerの効率を評価する…

「インタリーブされた視覚と言語の生成における新たな道を切り拓く:MiniGPT-5とジェネラティブVokenの力を解き放つ」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.32.14-AM-1024×691.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.32.14-AM-150×150.png”/><p>大規模言語モデルは、人間の言語を理解し生成することに優れています。この能力は、テキストの要約、感情分析、翻訳、チャットボットなどのタスクにおいて重要であり、自然言語処理のための貴重なツールとなっています。これらのモデルは、機械翻訳システムを改善することができ、異なる言語間でより正確かつ文脈に即した翻訳を可能にし、数多くのグローバルなコミュニケーションやビジネスアプリケーションに活用できます。 </p><p>大規模言語モデルは、テキスト内の人名、場所名、組織名、日付などの具名エンティティを認識し分類することが得意です。彼らは文章や文書に提示された情報に基づいて質問に答えることができます。彼らは質問の文脈を理解し、関連する情報を抽出して正確な回答を提供します。ただし、現在の大規模言語モデルは、テキスト画像のペアを処理することに基づいています。新しい画像を生成するタスクでは支援が必要です。新しいビジョンと言語のタスクでは、トピック中心のデータに強く依存し、しばしば画像の記述をスキップします。</p><p>カリフォルニア大学の研究者たちは、ジェネレーティブトーカンに基づく視覚と言語生成技術を取り入れた新しいモデルである MiniGPT-5 を開発しました。このマルチモーダルエンコーダは、他の大規模言語モデルと比較して効果的であることが証明された画期的な技術です。ジェネレーティブトーカンを安定した拡散モデルと組み合わせて、視覚と言語の出力を生成します。 </p><p>ジェネレーティブトーカンとは、生の画像で直接トレーニング可能な特別なビジュアルトーカンのことを指します。ビジュアルトーカンは、ビジョン情報を組み入れるためにモデルの入力に追加される要素を指します。画像キャプションを生成する際には、モデルは画像を入力として受け取り、特別なビジュアルトーカンの系列にトークン化し、画像の文脈や説明を表すテキストトークンと組み合わせます。この統合により、モデルは意味のある文脈に適したキャプションを生成することができます。</p><p>研究者たちは、高品質なテキストに対応する視覚特徴の単一モードアラインメントと、視覚とテキストのプロンプトが生成時にうまく調整されることを確認する二段階メソッドを採用しました。彼らの手法はドメイン特有の注釈を排除し、既存の作品からのソリューションを作ることができるようにします。彼らはテキストと画像のバランスを取るために、デュアルロス戦略を採用しました。彼らの適応された方法はトレーニングの効率を最適化し、メモリの制約に対処することも容易です。</p><p>チームは、MiniGPT-4エンコーダに対してパラメータ効率の高い微調整を実施し、モデルがより良く指示やプロンプトを理解し、新しいタスクやゼロショットタスクでのパフォーマンスを向上させるようにしました。彼らはまた、MiniGPT-4で使用される言語エンコーダVicunaに対してプレフィックスチューニングとLoRAを試しました。これらの手法に関する今後の研究は、既存の画像とテキストモデルの不一致の性質により以前は難しいと思われていた応用範囲を広げるでしょう。 </p>

ミニGPT-5:生成的なヴォケンによる交錯したビジョンと言語の生成

ここ数年、大規模言語モデル(LLM)は、自然言語処理(NLP)のブレークスルーにより、AI開発者から世界的に注目されていますこれらのモデルは、テキストの生成と理解の新たな基準を打ち立てていますしかし、テキストに対応する画像を一貫して生成することは依然として難しい課題ですこの問題に取り組むために、[…]

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。 最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。 彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。 ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。 「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。 画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。 研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。 マルチモーダル基礎モデル テキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。 CLIP(コントラスティブ言語画像事前トレーニング)は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。 BEiT(ビジョンのBERT)は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。 CoCa(コントラスティブおよびキャプショニング事前トレーニング)は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。 UniCL(統一コントラスティブ学習)は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。 MVP(マスク画像モデリングビジョン事前トレーニング)は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。 MIMの精度を向上させるため、EVA(Vision-Text Alignmentの活用)は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。 BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。 これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。…

「ChatGPTがGPT-4V(Vision)とともに視覚を獲得することで、マルチモーダルAIが進化します」

「OpenAIのGPT-4におけるマルチモーダルAIの進歩、その先見性のある機能、AIによる相互作用におけるテキストとビジュアルの融合の変革的な影響を探索してください」

AnomalyGPT:LVLMを使用して産業の異常を検出する

最近、LLavaやMiniGPT-4などの大規模な自然言語処理モデル(LVLMs)は、画像を理解し、いくつかの視覚的な課題で高い精度と効率を達成する能力を示していますLVLMsは、広範なトレーニングデータセットによる一般的なオブジェクトの認識に優れていますが、特定のドメイン知識を欠き、局所的な詳細に対する理解が限定されています

『AnomalyGPTとは:産業異常を検出するための大規模ビジョン言語モデル(LVLM)に基づく新しいIADアプローチ』

自然言語処理(NLP)のさまざまなタスクにおいて、GPT-3.5やLLaMAなどの大規模言語モデル(LLM)は優れたパフォーマンスを示してきました。LLMの視覚情報の解釈能力は、MiniGPT-4、BLIP-2、PandaGPTなどの最先端の技術によって最近拡張されており、視覚要素とテキスト特徴を連携させることで人工汎用知能(AGI)の分野において大きな転換をもたらしています。LVLMのIADタスクへの潜在能力は、インターネットから得られた大量のデータで事前トレーニングされているにもかかわらず制約されています。さらに、彼らの特定ドメインの知識は中程度にしか発展しておらず、オブジェクト内のローカルな特徴に対するより高い感度が必要です。IADの割り当ては、産業製品の写真で異常を見つけて特定することを試みます。 モデルは通常のサンプルのみでトレーニングされ、現実世界の例はまれで予測不能であるため、通常のサンプルから逸脱する異常なサンプルを識別する必要があります。ほとんどの現在のIADシステムは、テストサンプルに対して異常スコアを提供し、各オブジェクトクラスの通常と異常なインスタンスを区別するために手動で基準を定義するよう求めるため、実際の生産環境には適していません。中国科学院、中国科学院大学、Objecteye Inc.、武漢AI研究所の研究者は、図1に示すように、既存のIADアプローチやLVLMがIADの問題を十分に処理できないため、LVLMをベースにしたユニークなIAD手法であるAnomalyGPTを提案しています。手動の閾値調整を必要とせず、AnomalyGPTは異常とその位置を特定することができます。 図1は、AnomalyGPTを既存のIAD技術やLVLMと比較したものです。 さらに、彼らの手法は画像情報を提供し、インタラクティブな対話を促進し、ユーザーが要件と応答に応じてフォローアップクエリを行うことができます。AnomalyGPTは、わずかな通常のサンプルでコンテキスト内で学習することもでき、新しいオブジェクトに対して迅速に調整することができます。彼らは、合成された異常な視覚的テキストデータとIADの専門知識を組み込んだプロンプト埋め込みを使用して、LVLMを最適化します。ただし、IADデータを使用した直接的なトレーニングは改善する必要があります。最初にデータの希少性があります。LLaVAやPandaGPTを含む、160,000枚の写真と関連するマルチターンの会話で事前トレーニングされました。ただし、現在利用可能なIADデータセットのサンプルサイズが小さいため、直接の微調整は過学習や災害的な忘却に対して脆弱です。 これを修正するために、パラメータの微調整ではなくプロンプト埋め込みを使用してLVLMを微調整します。画像入力後に、さらにプロンプト埋め込みが挿入され、LVLMに追加のIAD情報が付加されます。2番目の困難は、細かい意味論に関連しています。彼らは、シンプルな視覚テキスト特徴マッチングベースのデコーダを提案し、ピクセルレベルの異常位置の結果を取得します。デコーダの出力は、LVLMと元のテスト画像にプロンプト埋め込みを介して提供されます。これにより、LVLMは生の画像とデコーダの出力の両方を使用して異常を識別し、判断の精度を高めることができます。彼らはMVTec-ADとVisAデータベースで包括的な実験を行います。 MVTec-ADデータセットでの教師なしトレーニングでは、93.3%の正確さ、97.4%の画像レベルのAUC、および93.1%のピクセルレベルのAUCを達成します。VisAデータセットに対して1つのショットを転送すると、77.4%の正確さ、87.4%の画像レベルのAUC、および96.2%のピクセルレベルのAUCが達成されます。一方、VisAデータセットでの教師なしトレーニング後にMVTec-ADデータセットに1つのショットを転送すると、86.1%の正確さ、94.1%の画像レベルのAUC、および95.3%のピクセルレベルのAUCが得られます。 以下は彼らの貢献の要約です: ・彼らはIAD業務の処理にLVLMの革新的な利用を提案しています。彼らのアプローチは、複数回の議論を容易にし、手動でしきい値を調整することなく異常を検出し、特定することができます。彼らの研究では、軽量な視覚テキスト特徴マッチングベースのデコーダを使用して、LLMの微細な意味の識別能力の制約に対処しています。また、LLMの制約されたテキスト出力能力の問題も解決しています。彼らの知る限り、彼らは初めてLVLMを産業用の異常検出に成功裡に応用しています。 ・LVLMの固有の機能を保持し、マルチターンの会話を可能にするため、彼らはLVLMの事前学習に使用されたデータと同時にモデルをトレーニングし、ファインチューニングのためにプロンプト埋め込みを使用しています。 ・彼らのアプローチは強力な転移性を維持し、新しいデータセットでのコンテキスト内のフューショット学習を行い、優れた結果を生み出すことができます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us