中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル

『中国の研究者が発表するCogVLM:パワフルなオープンソースのビジュアル言語基礎モデル』

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。

BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理(NLP)の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか?

Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました:p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。

p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです:

1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。

2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。

ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。

NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。

を日本語に翻訳すると、

となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

アイドルアプリの自動シャットダウンを使用して、Amazon SageMaker Canvasのコストを最適化する

『Amazon SageMaker Canvas』は、豊富なノーコードの機械学習(ML)と生成型AIのワークスペースで、視覚的かつノーコードのイ...

データサイエンス

「機械学習分類のための適合予測—基礎からのアプローチ」

このブログ投稿は、クリス・モーラーの書籍「Pythonによる確定予測のはじめに」に触発されていますクリスは、新しい機械学習...

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

機械学習

PIDコントローラの最適化:勾配降下法のアプローチ

「機械学習ディープラーニングAIこれらの技術を日々利用する人々がますます増えていますこれは、ChatGPTやBardなどによって展...

データサイエンス

「HuggingFaceを使用したLlama 2 7B Fine-TunedモデルのGPTQ量子化」

前の記事では、Meta AIが最近リリースした新しいLlama 2モデルを使用して、わずか数行のコードでPythonコードジェネレータを...

AI研究

チャットボットに関する不正行為の懸念は誇張されていたと、新しい研究が示唆しています

「ChatGPTのようなA.I.ツールは、スタンフォードの研究者によると、高校での不正行為の頻度を増加させていない」と言われてい...