AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く

LLaVARはAIの相互作用を変革し、視覚とテキストベースの理解において優れた性能を持ち、マルチモーダルな指示従属モデルの新時代を切り開きます

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/><p>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ(例:Conceptual CaptionsとCOCO)の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。</p><p>(より大きなコンテキスト長の)計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで(単純に)増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。</p><p>これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります(図1)。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。</p><figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption><strong>図1</strong>は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure><p>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR(Large Language and Vision Assistant that Can Read)は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。</p><p>まとめると、彼らの貢献は以下の通りです:</p><p>• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。</p><p>• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。</p><p>この記事はMarkTechPostで最初に公開されました。</p>

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

開発者と企業は、Gemini Proで構築する時です

「ジェミニプロは、開発者や企業がAIアプリケーションを構築するために利用可能です」

AIニュース

「アルトマンのスティーブ・ジョブズモーメントとしてのOpenAIのCEO」

数日前、愛好家や専門家たちはOpenAIのDevDay、GPT-5、そしてMicrosoftとの資金提携について議論しました。人工知能の未来は...

データサイエンス

『Audio-LDMを使用してテキストを音声に変換する完全ガイド』

Audio-LDMモデルを使用して、テキストから音声生成の力を解き放つAIの力

AIニュース

「アソシエーテッド・プレスがジャーナリスト向けのAIガイドラインを発表」

人工知能(AI)の急速な進歩は、ジャーナリズムを含むさまざまな産業への統合の道を開いています。最近、アソシエーテッドプ...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...