AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く

LLaVARはAIの相互作用を変革し、視覚とテキストベースの理解において優れた性能を持ち、マルチモーダルな指示従属モデルの新時代を切り開きます

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/><p>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ(例:Conceptual CaptionsとCOCO)の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。</p><p>(より大きなコンテキスト長の)計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで(単純に)増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。</p><p>これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります(図1)。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。</p><figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption><strong>図1</strong>は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure><p>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR(Large Language and Vision Assistant that Can Read)は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。</p><p>まとめると、彼らの貢献は以下の通りです:</p><p>• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。</p><p>• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。</p><p>この記事はMarkTechPostで最初に公開されました。</p>

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「最も価値のあるコードは、書くべきでないコードです」

伝統的なプログラミング言語のコーディングスキルは、AIが進化するにつれてますます重要ではなくなります私はコーディングな...

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

データサイエンス

「確信せよ、ただし検証せよ」

非決定的なソフトウェアの開発、テスト、および監視の課題を理解することこれは、可観測性のための新しいかつ重要な課題です ...

人工知能

Midjourney v5.2の新しいズームアウト機能の使い方(最良の例)

Midjourney v5.2がリリースされ、期待を裏切りませんでしたズームアウト機能は素晴らしいです

人工知能

生成AIを使用して検索(およびブラウジング)しながら学びます

「Search Generative Experience(SGE)の新しいアップデートにより、人々はオンラインで検索しながら新しいことを簡単に学び...

AI研究

「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙の...