マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

Microsoftの研究者は、テキスト重視の画像の機械読み取りのためのKosmos-2.5というマルチモーダルリテラシーモデルを紹介しました

近年、大規模言語モデル(LLM)が人工知能の中で注目を浴びていますが、これまで主にテキストに焦点を当て、視覚的な内容の理解に苦労してきました。多モーダル大規模言語モデル(MLLM)は、このギャップを埋めるために登場しました。MLLMは、ビジュアルとテキストの情報を単一のTransformerベースのモデルで組み合わせ、両方のモダリティからコンテンツを学習・生成することができるため、AIの能力の大幅な向上をもたらします。

KOSMOS-2.5は、統一されたフレームワーク内で2つの密接に関連する転写タスクを処理するために設計された多モーダルモデルです。最初のタスクは、空間認識を持つテキストブロックを生成し、テキストリッチな画像内のテキスト行に空間座標を割り当てることです。2番目のタスクは、さまざまなスタイルと構造を捉えたマークダウン形式の構造化されたテキスト出力を生成することに焦点を当てています。

両方のタスクは、共有のTransformerアーキテクチャ、タスク固有のプロンプト、および適応可能なテキスト表現を利用した単一のシステムで管理されています。モデルのアーキテクチャは、ViT(Vision Transformer)に基づくビジョンエンコーダと、Transformerアーキテクチャに基づく言語デコーダを組み合わせ、リサンプラモジュールを介して接続されています。

このモデルを訓練するためには、テキストが多い画像の大規模なデータセットで事前トレーニングを行います。このデータセットには、境界ボックス付きのテキスト行とプレーンなマークダウンテキストが含まれています。このデュアルタスクトレーニングのアプローチにより、KOSMOS-2.5の全体的な多モーダルリテラシー能力が向上します。

上記の画像は、KOSMOS-2.5のモデルアーキテクチャを示しています。KOSMOS-2.5の性能は、エンドツーエンドのドキュメントレベルのテキスト認識と、マークダウン形式の画像からのテキスト生成の2つの主要なタスクで評価されます。実験結果は、テキスト集中の画像タスクの理解力における強力なパフォーマンスを示しています。さらに、KOSMOS-2.5は、フューショットおよびゼロショット学習を含むシナリオで有望な能力を発揮し、テキストリッチな画像を扱う実世界のアプリケーションにおいて、多目的なツールとなります。

これらの有望な結果にもかかわらず、現在のモデルにはいくつかの制限があり、貴重な将来の研究方向を提供しています。たとえば、KOSMOS-2.5は現在、テキストの空間座標を入力と出力として事前トレーニングしているにもかかわらず、自然言語の指示を使用してドキュメント要素の位置を細かく制御することはサポートしていません。広範な研究領域では、モデルのスケーリング能力の開発をさらに進めるという重要な方向性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「OpenAI Dev Day 2023 創設者サム・オルトマンの基調講演からの4つの重要発表、見逃せません!」

「OpenAIによって初めて開催されたデベロッパーカンファレンスは、素晴らしい製品発表で満員御礼でしたさらに興味深いことに...

機械学習

AWSを使った生成AIを活用したクラウド上の新しい構築の時代へようこそ

「私たちは、時間の経過とともに、生成型AIが私たちが知るほぼすべての顧客エクスペリエンスを変革する可能性を持っていると...

データサイエンス

今日、開発者の70%がAIを受け入れています:現在のテックの環境での大型言語モデル、LangChain、およびベクトルデータベースの台頭について探求する

人工知能には無限の可能性があります。それは、新しいリリースや開発によって明らかになっています。OpenAIが開発した最新の...

AIニュース

「Amazon LexをLLMsで強化し、URLの取り込みを使用してFAQの体験を向上させる」

「現代のデジタル世界では、ほとんどの消費者は、ビジネスやサービスプロバイダに問い合わせるために時間をかけるよりも、自...

AI研究

初心者のための2023年の機械学習論文の読み方

「私は数十の機械学習の論文を読み、論文の勉強方法がだいたい分かってきました まず最初に、特定の論文を読む目的を理解する...

機械学習

「FACTOOLにご紹介いたします:大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実エラーを検出するためのタスクとドメインに依存しないフレームワーク」

GPT-4は、自然言語処理のいくつかのタスクを1つのシーケンス生成問題に統合した生成型の人工知能(AI)技術の一例です。この...