中国からのこのAI論文では、「モンキー」という新しい人工知能のアプローチが紹介されていますこれは、大規模なマルチモーダルモデルで入力の解像度と文脈関連性を向上させるための方法です

「モンキー」というNEW AIアプローチ:入力解像度と文脈関連性を向上させる大規模なマルチモーダルモデル

大規模なマルチモーダルモデルは、テキストや画像を含むさまざまなデータを処理し分析する能力があるため、ますます人気が高まっています。学界では、画像のラベリング、ビジュアルな質問への回答など、さまざまなマルチモーダルな活動でその知識が認識されています。LLaVA、MiniGPT4、mPLUG-Owl、Qwen-VLなど、最先端のモデルは、この分野での迅速な進歩の例です。ただし、特に複雑なシナリオの取り扱い時には、さまざまな画像解像度の幅広さや、トレーニングデータの品質の必要性など、いくつかの障害があります。画像エンコーダは改善され、大規模なデータセットが使用されて入力解像度を増やすことで、これらの困難を克服するための取り組みがなされています。

さらに、LLaVAは、マルチモーダルな状況での指示調整を革新的に拡張することで、マルチモーダルな指示に従うデータを統合しています。しかし、これらの手法は頻繁に画像の入力サイズを持続可能に管理し、かつ大規模なトレーニングコストに対処するための支援が必要です。データセットが大きくなるにつれて、画像とテキストの関連性の微妙なニュアンスを理解するために、より複雑な画像の説明が必要とされる状況が増えてきます。これは、COYOやLAIONなどのデータセットで見られる簡潔な一文のキャプションで満たされる必要がある条件です。これらの制約により、華中科技大学と金山研究所の研究者らは、Monkeyと呼ばれるLMMパラダイムのコンテキストで入力解像度を高めるためのリソース効率の良い技術を提案しています。既存のLMMを活用することで、時間のかかる事前トレーニングプロセスを回避することができるため、大規模なオープンソースの作業が豊富に存在していることに感謝します。

研究チームは、高解像度の画像をより管理しやすく、局所的な部分に分割するためのスライディングウィンドウアプローチを使用するシンプルかつ効率的なモジュールを提案しています。静的なビジュアルエンコーダ、複数のLoRA修正、および訓練可能なビジュアルリサンプラは、各パッチを個別にエンコードします。その後、言語デコーダには、これらのパッチのエンコーディングとグローバルな画像のエンコーディングが与えられ、より良い画像理解が行われます。また、BLIP2、PPOCR、GRIT、SAM、ChatGPT OpenAIなどの多くのジェネレータからのマルチレベルの手がかりを組み合わせた技術も開発し、豊富で高品質なキャプションデータを提供しています。

まず、彼らのモデルの画像キャプショニングの割り当ては、画像のさまざまなアクセサリやバックドロップの赤い旗など、間違いや抜けがなくほぼすべての側面を正確に説明することができます。キャプションに含まれる茶色のバッグは、写真をよく見ないとすぐには明らかでないかもしれませんが、モデルの説明では強調されています。この小さなヒントにより、モデルは確実に検証することができなくても理に適った結論を導くことができます。これにより、モデルは小さなアイテムにも注意を払い、論理的かつ正確な説明を提供する能力を示しています。ビジュアルの詳細な説明の提供だけでなく、モデルはさまざまな言語とそれらに対応する信号を区別することもできます。

この情報を使用することで、Monkeyによる写真の効用を合理的に予測することができます。写真の水印である “life quotes Tumblr” に “e” が欠けていても、モデルはそれに関する質問に答えることができます。これは、トレーニング後により高い解像度の写真の小さなテキストを読む能力を示しています。さらに、モデルが “October 6, 1966” という日付に関する質問に正しく応答することで、チャートからデータを読み取り、濃密なテキスト素材の中から適切な応答を特定する能力も示されています。この現象は、モデルが特定のテキストとそれに対応する目標の整合性を正確に表現できる能力を示し、濃密であいまいなテキストでもクエリに正確に応答する能力と、目的と全体的な知識の関連性を強調しています。

Monkeyの利点は次のようにまとめられます:

1. コンテキスト内の関連性。研究チームは、説明の生成においてさまざまなターゲット間の関係を理解し、テキスト説明を作成する際に共通の知識をより効果的に探索するためのマルチレベル戦略を提案することで、モデルの能力を向上させています。これにより、より深い洞察と詳細な結果が生み出されます。

2. 事前トレーニングなしで、1344 x 896までの解像度をサポート。LMMに通常使用される448 x 448の解像度を超えるこの大きな解像度は、小さなまたは密なオブジェクトやテキストを特定し理解する能力を向上させます。

3. 複数の評価データセットにおけるパフォーマンスの向上。彼らのMonkeyモデルは、イメージキャプショニング、一般的なビジュアル質問応答、シーンテキスト中心のビジュアル質問応答、ドキュメント指向のビジュアル質問応答などのタスクにおいて、16の異なるデータセットでテストした結果、競争力のあるパフォーマンスを発揮しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

機械学習

『Qwen Large Language Models(LLMs)Seriesについて知っておくべきすべて』

大型言語モデル(LLM)は、登場以来、人工知能(AI)の領域を大きく変えました。これらのモデルは、厳しい推論や問題解決の問...

人工知能

「AIオートメーションエージェンシーのリードを増やす方法(月間100件以上のミーティング)」

「顧客を見つけることは数のゲームであり、多くの時間を要しますAIにすべての困難な仕事を任せない限り」

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...

データサイエンス

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見...

機械学習

ロボットスキル合成のための言語から報酬への変換

Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブ...