マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

Microsoftの研究者は、テキスト重視の画像の機械読み取りのためのKosmos-2.5というマルチモーダルリテラシーモデルを紹介しました

近年、大規模言語モデル(LLM)が人工知能の中で注目を浴びていますが、これまで主にテキストに焦点を当て、視覚的な内容の理解に苦労してきました。多モーダル大規模言語モデル(MLLM)は、このギャップを埋めるために登場しました。MLLMは、ビジュアルとテキストの情報を単一のTransformerベースのモデルで組み合わせ、両方のモダリティからコンテンツを学習・生成することができるため、AIの能力の大幅な向上をもたらします。

KOSMOS-2.5は、統一されたフレームワーク内で2つの密接に関連する転写タスクを処理するために設計された多モーダルモデルです。最初のタスクは、空間認識を持つテキストブロックを生成し、テキストリッチな画像内のテキスト行に空間座標を割り当てることです。2番目のタスクは、さまざまなスタイルと構造を捉えたマークダウン形式の構造化されたテキスト出力を生成することに焦点を当てています。

両方のタスクは、共有のTransformerアーキテクチャ、タスク固有のプロンプト、および適応可能なテキスト表現を利用した単一のシステムで管理されています。モデルのアーキテクチャは、ViT(Vision Transformer)に基づくビジョンエンコーダと、Transformerアーキテクチャに基づく言語デコーダを組み合わせ、リサンプラモジュールを介して接続されています。

このモデルを訓練するためには、テキストが多い画像の大規模なデータセットで事前トレーニングを行います。このデータセットには、境界ボックス付きのテキスト行とプレーンなマークダウンテキストが含まれています。このデュアルタスクトレーニングのアプローチにより、KOSMOS-2.5の全体的な多モーダルリテラシー能力が向上します。

上記の画像は、KOSMOS-2.5のモデルアーキテクチャを示しています。KOSMOS-2.5の性能は、エンドツーエンドのドキュメントレベルのテキスト認識と、マークダウン形式の画像からのテキスト生成の2つの主要なタスクで評価されます。実験結果は、テキスト集中の画像タスクの理解力における強力なパフォーマンスを示しています。さらに、KOSMOS-2.5は、フューショットおよびゼロショット学習を含むシナリオで有望な能力を発揮し、テキストリッチな画像を扱う実世界のアプリケーションにおいて、多目的なツールとなります。

これらの有望な結果にもかかわらず、現在のモデルにはいくつかの制限があり、貴重な将来の研究方向を提供しています。たとえば、KOSMOS-2.5は現在、テキストの空間座標を入力と出力として事前トレーニングしているにもかかわらず、自然言語の指示を使用してドキュメント要素の位置を細かく制御することはサポートしていません。広範な研究領域では、モデルのスケーリング能力の開発をさらに進めるという重要な方向性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

データサイエンス

機械学習システムにおけるデータ品質の維持

機械学習(ML)の眩しい世界では、洗練されたアルゴリズム、魅力的な視覚化、印象的な予測を考案する魅力に夢中になることは...

機械学習

大規模言語モデルにおける推論力の向上:正確かつ転送可能なルールベース学習のための仮説から理論へ(HtT)フレームワークをご覧ください

論理タスクの領域では、大規模言語モデル(LLM)は、例や中間ステップを提供された場合に、驚くべきパフォーマンスを示しまし...

データサイエンス

METAのHiera:複雑さを減らして精度を高める

畳み込みニューラルネットワークは、20年以上にわたってコンピュータビジョンの分野を支配してきましたトランスフォーマーの...

機械学習

「DreamPose」というAIフレームワークを使用して、ファッション画像を見事な写真のようなビデオに変換します

ファッション写真は、ソーシャルメディアやEコマースのウェブサイトなど、オンラインプラットフォームで広く使われています。...

データサイエンス

「Amazon SageMaker Data WranglerでAWS Lake Formationを使用して細粒度のデータアクセス制御を適用する」

「SageMaker Data Wranglerは、Amazon EMRと組み合わせてLake Formationを利用できるようになり、この細かいデータアクセス制...