この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

『ウッドペッカー』:マルチモーダルな大規模言語モデル(MLLMs)の幻覚修正における革新的な人工知能フレームワークをご紹介

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。

幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。

Woodpeckerは、次の5つのキープロセスからなります:

1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。

2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。

3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。

4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。

5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。

このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。

研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。

MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。

LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。

まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法の...

データサイエンス

「Google CloudとNVIDIAが協力を更に進展させる」

生成AIと大規模言語モデル(LLMs)が革新を推進する中で、トレーニングと推論のためのコンピューティング要件は驚異的なペー...

機械学習

マシンラーニングにとっての「最悪のシナリオを防ぐ競争」

A.I.企業は、児童性的虐待物資の作成や流通を阻止する面で優位に立っています彼らは、ソーシャルメディア企業が失敗したこと...

コンピュータサイエンス

ハーバード大学の新しいコンピューターサイエンスの先生は、チャットボットです

大学の主力コンピュータサイエンスの授業であるCS50に登録している学生は、9月にAI教師が提示されます

AI研究

『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することが...

機械学習

BentoML入門:統合AIアプリケーションフレームワークの紹介

この記事では、統合されたAIアプリケーションフレームワークであるBentoMLを使用して、機械学習モデルの展開を効率化する方法...