GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べて、より小型、高速、かつ強力なビジョン言語モデル(VLM)です

GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べてより小型、高速、かつ強力なビジョン言語モデル(VLM)の登場

ビジョン言語モデル(VLM)は、自然言語理解と画像認識の能力を組み合わせた高度な人工知能システムです。OpenAIのCLIPやGoogleのBigGANのように、VLMはテキストの説明を理解し、画像を解釈することができるため、コンピュータビジョン、コンテンツ生成、人間との対話など、さまざまな分野での応用が可能です。VLMは、視覚的なコンテキストでテキストを理解し生成する能力を示し、AIの分野で重要なテクノロジーとなっています。

Google Research、Google DeepMind、Google Cloudの研究者は、分類と対照的な目標で事前学習されたVision Transformer(ViT)モデルと比較し、特にSigLIPベースのPaLIがマルチモーダルタスクで優れた成果を上げていることを明らかにしました。研究者たちは、2兆パラメータのSigLIP画像エンコーダをスケーリングし、新たなマルチリンガルクロスモーダル検索の最先端を実現しました。彼らの研究は、分類スタイルのデータではなく、ウェブ規模の画像テキストデータでビジュアルエンコーダを事前学習することの利点を示しています。PaLI-Xのような大規模ビジョン言語モデルの分類事前学習の拡大による利点が明らかになっています。

彼らの研究では、VLMのスケーリングについて詳しく説明し、実用性と効率的な研究の重要性を強調しています。彼らは競争力のある結果を出すために、5兆パラメータのPaLI-3というモデルを導入しました。PaLI-3のトレーニングプロセスは、ウェブスケールのデータでの対照的な事前トレーニング、改善されたデータセットのミキシング、およびより高解像度のトレーニングを含んでいます。さらに、2兆パラメータのマルチリンガルな対照的なビジョンモデルも紹介されています。脱落研究は、特に位置特定や視覚に関連するテキスト理解のタスクにおいて、対照的な事前学習モデルの優越性を確認しています。

彼らのアプローチでは、事前学習済みのViTモデルを画像エンコーダとして使用し、特にViT-G14を使用しています。ViT-G14は約2兆パラメータを持ち、PaLI-3のビジョンのバックボーンとなります。対照的な事前トレーニングでは、画像とテキストを別々に埋め込み、それらの対応を分類します。ViTの出力からのビジュアルトークンは、テキストトークンと組み合わされます。これらの入力は、タスクに固有のプロンプト(VQAの質問など)によって駆動される、30億パラメータのUL2エンコーダ-デコーダ言語モデルによって処理されます。

PaLI-3は、特に位置特定と視覚的に配置されたテキストの理解において、より大きなモデルと比較して優れています。対照的な画像エンコーダの事前トレーニングを持つSigLIPベースのPaLIモデルは、新たなマルチリンガルクロスモーダル検索の最先端を確立しています。フルのPaLI-3モデルは、リファリング表現のセグメンテーションの最新技術を凌駕し、検出タスクのサブグループ全体で低いエラーレートを維持しています。対照的な事前トレーニングは、位置特定タスクにおいてより効果的です。PaLI-3のViT-G画像エンコーダは、複数の分類およびクロスモーダル検索タスクで優れています。

まとめると、彼らの研究は、SigLIPアプローチによる対照的な事前トレーニングの利点を強調し、高度で効率的なVLMを実現します。より小規模な5兆パラメータのSigLIPベースのPaLI-3モデルは、位置特定およびテキスト理解において大きなモデルよりも優れており、さまざまなマルチモーダルベンチマークで優れた成果を上げています。PaLI-3の画像エンコーダの対照的な事前トレーニングは、新たなマルチリンガルクロスモーダル検索の最先端を実現しています。彼らの研究は、画像エンコーダの事前トレーニング以外のVLMトレーニングのさまざまな側面について包括的な調査が必要であり、モデルのパフォーマンスをさらに向上させる必要性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

メタが「AudioCraft」を発表:テキストを音声や音楽に変換するためのAIツール

Metaは、Facebook、Instagram、WhatsAppなどのソーシャルメディアプラットフォームを展開しているテックジャイアントであり、...

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します

データサイエンス

「GATE DA 2024のサンプル問題集」

導入 GATE 2024の志望者の皆さん、素晴らしいニュースです!インド科学研究所(IISc)が、今後のGATE試験のためのサンプル問...

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます

データサイエンス

「今日使用されているAIoTの応用」

「AIとIoTの統合が、多くの技術分野を再構築する様子を探求してくださいいくつかの有名な例を交えて、最先端のAIoTアプリケー...

データサイエンス

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェ...