「ビジョン・ランゲージの交差点でのブレイクスルー:オールシーイングプロジェクトの発表」

Breakthrough at the Intersection of Vision and Language Announcement of the All-Seeing Project

AIチャットボットの急速な台頭を支えるLLMは、話題の的です。ユーザーに合わせた自然言語処理機能において驚異的な能力を示していますが、視覚世界を理解する能力には欠けているようです。視覚と言語の世界のギャップを埋めるために、研究者たちはオールシーイング(AS)プロジェクトを提案しています。

ASプロジェクトは、オープンワールドのパノプティックな視覚認識と理解を目指し、人間の認知を模倣するビジョンシステムの構築を目指しています。”パノプティック”という用語は、一つの視点で見えるすべてを含むことを指します。

ASプロジェクトは以下の要素から構成されています:

  • オールシーイング1B(AS-1B)データセットは、現実世界の広範で珍しい3.5百万の概念をカバーしており、これらの概念とその属性を説明する1322億のトークンを持っています。
  • オールシーイングモデル(ASM)は、統一された位置情報を考慮した画像テキストの基礎モデルです。このモデルは、位置情報を考慮した画像トークナイザとLLMベースのデコーダの2つの主要なコンポーネントで構成されています。

このデータセットには、意味的なタグ、位置、質問応答のペア、キャプションなど、さまざまな形式で1億以上の領域の注釈が含まれています。ImageNetやCOCOなどの従来の視覚認識データセット、Visual GenomeやLaion-5Bなどの視覚理解データセットと比較して、AS-1Bデータセットは、豊富で多様なインスタンスレベルの位置注釈と対応する詳細なオブジェクトの概念と説明があるため、際立っています。

ASモデルのアーキテクチャは、さまざまなレベルの統一されたフレームワークで構成されています。このモデルは、画像レベルと領域レベルの対比的なおよび生成的な画像テキストのタスクをサポートしています。事前学習されたLLMと強力なビジョン基盤モデル(VFM)を活用することで、このモデルは、画像テキストの検索やゼロ分類などの識別的なタスク、およびビジュアルクエスチョンアンサリング(VQA)、ビジュアルリーズニング、画像キャプショニング、領域キャプショニング/VQAなどの生成的なタスクにおいて、有望なパフォーマンスを示しています。さらに、研究者たちは、クラスに依存しない検出器の支援を受けてフレーズのグラウンディングや参照表現の理解などのタスクに潜在的な可能性を見出しています。

オールシーイングモデル(ASM)は、次の3つの主要な設計要素で構成されています:

  1. 位置情報を考慮した画像トークナイザは、画像とバウンディングボックスに基づいて画像レベルと領域レベルの特徴を抽出します。
  2. 訓練可能なタスクプロンプトは、ビジョンとテキストのトークンの先頭に組み込まれ、識別的なタスクと生成的なタスクを区別するためにモデルをガイドします。
  3. LLMベースのデコーダは、識別的なタスクのためのビジョンとテキストの特徴を抽出し、生成的なタスクでは応答トークンを自己回帰的に生成するために使用されます。

ASMとCLIPベースのベースラインモデル(GPT-2および3のゼロショット機能を表示)および主要なマルチモダリティ大規模言語モデル(VLLM)を代表するビジョンタスク(ゼロショット領域認識、画像レベルキャプション、領域レベルキャプションなど)で分析および比較することにより、ASMの品質、スケーリング、多様性、および実験に関する包括的なデータ分析が行われました。その結果、当社のASMによる強力な領域レベルのテキスト生成能力が示され、また、全体の画像を理解する能力も示されました。人間の評価結果は、当社のASMによって生成されたキャプションがMiniGPT4やLLaVAよりも好まれることを示しています。

このモデルは、オープンエンドの言語プロンプトと位置情報でトレーニングされており、領域テキストの検索、領域認識、キャプション付け、質問応答など、ゼロショットのパフォーマンスを持つさまざまなビジョンと言語のタスクに汎化することができます。これにより、LLMに「全見の目」が与えられ、ビジョンと言語の交差点が革新されたと研究者は述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます

AIニュース

IBMとMETAが責任あるイノベーションのためのAI連携を結成

責任あるAIイノベーションへの重要な一歩として、IBMとMetaは共同でAIアライアンスを立ち上げました。この連携により、世界中...

人工知能

2023年のトップ10 AI QRコードジェネレーター

QRコードは、特に支払いの便利さから広く人気があります。金融の応用にとどまらず、QRコードはさまざまなデータタイプを包括...

人工知能

「Unblock Your Software Engineers With Unblocked(アンブロックドでソフトウェアエンジニアを活用しましょう)」

「AIは、私たちのフィールドでますます重要な役割を果たしており、私たち開発者の生産性を大きく向上させる能力を持っていま...

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...

データサイエンス

チャットボットと個人情報の共有の危険性-注意が必要です

AI革命の始まり以来、ChatGPTやBardのようなチャットボットは、私たちにとって欠かせないツールとなり、もはや切り離せない存...