この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

『ウッドペッカー』:マルチモーダルな大規模言語モデル(MLLMs)の幻覚修正における革新的な人工知能フレームワークをご紹介

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。

幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。

Woodpeckerは、次の5つのキープロセスからなります:

1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。

2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。

3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。

4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。

5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。

このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。

研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。

MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。

LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。

まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩し...

データサイエンス

「IoTエッジデバイスのためのクラウドベースのAI/MLサービスの探索」

AIとMLは、自動運転車、ウェブ検索、音声認識などの進歩を可能にしましたIoTデバイスのAIとMLの探求に興味がある場合、お手伝...

AI研究

『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュ...

AIニュース

Gスイートの見逃せない5つのGoogle Duet AIの驚異的な機能

Googleは最新のイノベーション、Duet AIにより再びレベルを引き上げました。このG-Suiteファミリーの強力な追加機能は、Sheet...

データサイエンス

モデルアーキテクチャのための生成AIに向けて

「Attention is All You Need」というトランスフォーマー革命は、深層学習モデルのアーキテクチャの設計に深い影響を与えまし...

コンピュータサイエンス

「パーソナルロボットによる生活の快適化」

メディアラボの研究科学者、シャリファ・アルゴウィネムは、英語とアラビア語で感情を説明する個人用ロボット技術を探求して...