GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べて、より小型、高速、かつ強力なビジョン言語モデル(VLM)です

GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べてより小型、高速、かつ強力なビジョン言語モデル(VLM)の登場

ビジョン言語モデル(VLM)は、自然言語理解と画像認識の能力を組み合わせた高度な人工知能システムです。OpenAIのCLIPやGoogleのBigGANのように、VLMはテキストの説明を理解し、画像を解釈することができるため、コンピュータビジョン、コンテンツ生成、人間との対話など、さまざまな分野での応用が可能です。VLMは、視覚的なコンテキストでテキストを理解し生成する能力を示し、AIの分野で重要なテクノロジーとなっています。

Google Research、Google DeepMind、Google Cloudの研究者は、分類と対照的な目標で事前学習されたVision Transformer(ViT)モデルと比較し、特にSigLIPベースのPaLIがマルチモーダルタスクで優れた成果を上げていることを明らかにしました。研究者たちは、2兆パラメータのSigLIP画像エンコーダをスケーリングし、新たなマルチリンガルクロスモーダル検索の最先端を実現しました。彼らの研究は、分類スタイルのデータではなく、ウェブ規模の画像テキストデータでビジュアルエンコーダを事前学習することの利点を示しています。PaLI-Xのような大規模ビジョン言語モデルの分類事前学習の拡大による利点が明らかになっています。

彼らの研究では、VLMのスケーリングについて詳しく説明し、実用性と効率的な研究の重要性を強調しています。彼らは競争力のある結果を出すために、5兆パラメータのPaLI-3というモデルを導入しました。PaLI-3のトレーニングプロセスは、ウェブスケールのデータでの対照的な事前トレーニング、改善されたデータセットのミキシング、およびより高解像度のトレーニングを含んでいます。さらに、2兆パラメータのマルチリンガルな対照的なビジョンモデルも紹介されています。脱落研究は、特に位置特定や視覚に関連するテキスト理解のタスクにおいて、対照的な事前学習モデルの優越性を確認しています。

彼らのアプローチでは、事前学習済みのViTモデルを画像エンコーダとして使用し、特にViT-G14を使用しています。ViT-G14は約2兆パラメータを持ち、PaLI-3のビジョンのバックボーンとなります。対照的な事前トレーニングでは、画像とテキストを別々に埋め込み、それらの対応を分類します。ViTの出力からのビジュアルトークンは、テキストトークンと組み合わされます。これらの入力は、タスクに固有のプロンプト(VQAの質問など)によって駆動される、30億パラメータのUL2エンコーダ-デコーダ言語モデルによって処理されます。

PaLI-3は、特に位置特定と視覚的に配置されたテキストの理解において、より大きなモデルと比較して優れています。対照的な画像エンコーダの事前トレーニングを持つSigLIPベースのPaLIモデルは、新たなマルチリンガルクロスモーダル検索の最先端を確立しています。フルのPaLI-3モデルは、リファリング表現のセグメンテーションの最新技術を凌駕し、検出タスクのサブグループ全体で低いエラーレートを維持しています。対照的な事前トレーニングは、位置特定タスクにおいてより効果的です。PaLI-3のViT-G画像エンコーダは、複数の分類およびクロスモーダル検索タスクで優れています。

まとめると、彼らの研究は、SigLIPアプローチによる対照的な事前トレーニングの利点を強調し、高度で効率的なVLMを実現します。より小規模な5兆パラメータのSigLIPベースのPaLI-3モデルは、位置特定およびテキスト理解において大きなモデルよりも優れており、さまざまなマルチモーダルベンチマークで優れた成果を上げています。PaLI-3の画像エンコーダの対照的な事前トレーニングは、新たなマルチリンガルクロスモーダル検索の最先端を実現しています。彼らの研究は、画像エンコーダの事前トレーニング以外のVLMトレーニングのさまざまな側面について包括的な調査が必要であり、モデルのパフォーマンスをさらに向上させる必要性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人...

機械学習

ディープラーニング実験の十のパターンとアンチパターン

この記事では、深層学習エンジニアとしての10年の経験から収集したパターンとアンチパターンのリストを紹介します深層学習エ...

人工知能

「GenAI-Infused ChatGPT 有効なプロンプトエンジニアリングのガイド」

「この記事は、AIのコミュニケーションを改善するための迅速なエンジニアリングの重要性を強調した簡潔な情報源です」

AI研究

「このAI研究は、深層学習と進化アルゴリズムを用いて、シリコンMach-Zehnderモジュレータの設計を革新します」

NetflixやIoTの人気や分散コンピューティングおよびストレージアーキテクチャへの移行により、ネットワークの伝送容量要件が...

機械学習

AIベースのアプリケーションテストのトップトレンドを知る必要があります

「AIアプリケーションのテストにおける最新のトレンドを把握しましょうこれらの必須のテスト方法で、AIアプリケーションの精...

AI研究

ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺...