この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

『ウッドペッカー』:マルチモーダルな大規模言語モデル(MLLMs)の幻覚修正における革新的な人工知能フレームワークをご紹介

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。

幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。

Woodpeckerは、次の5つのキープロセスからなります:

1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。

2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。

3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。

4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。

5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。

このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。

研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。

MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。

LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。

まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

大ニュース:Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びまし...

機械学習

「メールの生産性を革新する:SaneBoxのAIがあなたの受信トレイの体験を変える方法」

生産性について誰かが書くたびに、暗い情景を描くことから始めるようです。「今日のデジタル時代では、誰も何もできない̷...

人工知能

2023 AIインデックスレポート:将来に期待できるAIトレンド

レポートからいくつかの要点があり、これらはAIの将来に備えるための準備をしてくれます

データサイエンス

このAI研究は、近くの電話によって記録されたキーストロークを聞くことで、95%の正確さでデータを盗むことができるディープラーニングモデルを紹介しています

ディープラーニングの進歩とマイクロフォンの普及に伴い、個人デバイスを通じたオンラインサービスの人気が高まる中、キーボ...

データサイエンス

デプロイ可能な機械学習パイプラインの構築

多くのデータサイエンティストは、最初のコーディング体験をノートブックスタイルのユーザーインターフェースを通じて行いま...

機械学習

オーディオSRにお会いください:信じられないほどの48kHzの音質にオーディオをアップサンプリングするためのプラグ&プレイであり、ワンフォーオールのAIソリューション

デジタルオーディオ処理の分野における重要な課題の一つは、オーディオの超解像度です。これは、低解像度のオーディオデータ...