中国からのこのAI論文では、「モンキー」という新しい人工知能のアプローチが紹介されていますこれは、大規模なマルチモーダルモデルで入力の解像度と文脈関連性を向上させるための方法です

「モンキー」というNEW AIアプローチ:入力解像度と文脈関連性を向上させる大規模なマルチモーダルモデル

大規模なマルチモーダルモデルは、テキストや画像を含むさまざまなデータを処理し分析する能力があるため、ますます人気が高まっています。学界では、画像のラベリング、ビジュアルな質問への回答など、さまざまなマルチモーダルな活動でその知識が認識されています。LLaVA、MiniGPT4、mPLUG-Owl、Qwen-VLなど、最先端のモデルは、この分野での迅速な進歩の例です。ただし、特に複雑なシナリオの取り扱い時には、さまざまな画像解像度の幅広さや、トレーニングデータの品質の必要性など、いくつかの障害があります。画像エンコーダは改善され、大規模なデータセットが使用されて入力解像度を増やすことで、これらの困難を克服するための取り組みがなされています。

さらに、LLaVAは、マルチモーダルな状況での指示調整を革新的に拡張することで、マルチモーダルな指示に従うデータを統合しています。しかし、これらの手法は頻繁に画像の入力サイズを持続可能に管理し、かつ大規模なトレーニングコストに対処するための支援が必要です。データセットが大きくなるにつれて、画像とテキストの関連性の微妙なニュアンスを理解するために、より複雑な画像の説明が必要とされる状況が増えてきます。これは、COYOやLAIONなどのデータセットで見られる簡潔な一文のキャプションで満たされる必要がある条件です。これらの制約により、華中科技大学と金山研究所の研究者らは、Monkeyと呼ばれるLMMパラダイムのコンテキストで入力解像度を高めるためのリソース効率の良い技術を提案しています。既存のLMMを活用することで、時間のかかる事前トレーニングプロセスを回避することができるため、大規模なオープンソースの作業が豊富に存在していることに感謝します。

研究チームは、高解像度の画像をより管理しやすく、局所的な部分に分割するためのスライディングウィンドウアプローチを使用するシンプルかつ効率的なモジュールを提案しています。静的なビジュアルエンコーダ、複数のLoRA修正、および訓練可能なビジュアルリサンプラは、各パッチを個別にエンコードします。その後、言語デコーダには、これらのパッチのエンコーディングとグローバルな画像のエンコーディングが与えられ、より良い画像理解が行われます。また、BLIP2、PPOCR、GRIT、SAM、ChatGPT OpenAIなどの多くのジェネレータからのマルチレベルの手がかりを組み合わせた技術も開発し、豊富で高品質なキャプションデータを提供しています。

まず、彼らのモデルの画像キャプショニングの割り当ては、画像のさまざまなアクセサリやバックドロップの赤い旗など、間違いや抜けがなくほぼすべての側面を正確に説明することができます。キャプションに含まれる茶色のバッグは、写真をよく見ないとすぐには明らかでないかもしれませんが、モデルの説明では強調されています。この小さなヒントにより、モデルは確実に検証することができなくても理に適った結論を導くことができます。これにより、モデルは小さなアイテムにも注意を払い、論理的かつ正確な説明を提供する能力を示しています。ビジュアルの詳細な説明の提供だけでなく、モデルはさまざまな言語とそれらに対応する信号を区別することもできます。

この情報を使用することで、Monkeyによる写真の効用を合理的に予測することができます。写真の水印である “life quotes Tumblr” に “e” が欠けていても、モデルはそれに関する質問に答えることができます。これは、トレーニング後により高い解像度の写真の小さなテキストを読む能力を示しています。さらに、モデルが “October 6, 1966” という日付に関する質問に正しく応答することで、チャートからデータを読み取り、濃密なテキスト素材の中から適切な応答を特定する能力も示されています。この現象は、モデルが特定のテキストとそれに対応する目標の整合性を正確に表現できる能力を示し、濃密であいまいなテキストでもクエリに正確に応答する能力と、目的と全体的な知識の関連性を強調しています。

Monkeyの利点は次のようにまとめられます:

1. コンテキスト内の関連性。研究チームは、説明の生成においてさまざまなターゲット間の関係を理解し、テキスト説明を作成する際に共通の知識をより効果的に探索するためのマルチレベル戦略を提案することで、モデルの能力を向上させています。これにより、より深い洞察と詳細な結果が生み出されます。

2. 事前トレーニングなしで、1344 x 896までの解像度をサポート。LMMに通常使用される448 x 448の解像度を超えるこの大きな解像度は、小さなまたは密なオブジェクトやテキストを特定し理解する能力を向上させます。

3. 複数の評価データセットにおけるパフォーマンスの向上。彼らのMonkeyモデルは、イメージキャプショニング、一般的なビジュアル質問応答、シーンテキスト中心のビジュアル質問応答、ドキュメント指向のビジュアル質問応答などのタスクにおいて、16の異なるデータセットでテストした結果、競争力のあるパフォーマンスを発揮しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「良い説明がすべてです」

私は大規模な言語モデル(LLM)をしばらく使っていますが、個人のプロジェクトや日常の仕事の一環として使用しています多くの...

AIニュース

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたら...

機械学習

2024年のインフラストラクチャー予測

企業はAIの導入の転換点を見ているランサムウェアの脅威が罰則と衝突し、ハイブリッドクラウドアーキテクチャが主流となり、...

人工知能

「ウェブ開発の未来:予測と可能性」

「ウェブ開発の未来を発見しましょう!AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょ...

AI研究

新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました

骨粗鬆症は、骨の過剰な喪失と骨折のリスクが高まる状態を特徴とする疾患で、長年にわたり高齢者に悩み続けてきました。健康...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#61

「最近の数ヶ月間、私たちは大規模な言語モデル(LLM)の進歩と新しい技術の徐々の導入を続けてきましたが、まだGPT-4を直接...