マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

Microsoftの研究者は、テキスト重視の画像の機械読み取りのためのKosmos-2.5というマルチモーダルリテラシーモデルを紹介しました

近年、大規模言語モデル(LLM)が人工知能の中で注目を浴びていますが、これまで主にテキストに焦点を当て、視覚的な内容の理解に苦労してきました。多モーダル大規模言語モデル(MLLM)は、このギャップを埋めるために登場しました。MLLMは、ビジュアルとテキストの情報を単一のTransformerベースのモデルで組み合わせ、両方のモダリティからコンテンツを学習・生成することができるため、AIの能力の大幅な向上をもたらします。

KOSMOS-2.5は、統一されたフレームワーク内で2つの密接に関連する転写タスクを処理するために設計された多モーダルモデルです。最初のタスクは、空間認識を持つテキストブロックを生成し、テキストリッチな画像内のテキスト行に空間座標を割り当てることです。2番目のタスクは、さまざまなスタイルと構造を捉えたマークダウン形式の構造化されたテキスト出力を生成することに焦点を当てています。

両方のタスクは、共有のTransformerアーキテクチャ、タスク固有のプロンプト、および適応可能なテキスト表現を利用した単一のシステムで管理されています。モデルのアーキテクチャは、ViT(Vision Transformer)に基づくビジョンエンコーダと、Transformerアーキテクチャに基づく言語デコーダを組み合わせ、リサンプラモジュールを介して接続されています。

このモデルを訓練するためには、テキストが多い画像の大規模なデータセットで事前トレーニングを行います。このデータセットには、境界ボックス付きのテキスト行とプレーンなマークダウンテキストが含まれています。このデュアルタスクトレーニングのアプローチにより、KOSMOS-2.5の全体的な多モーダルリテラシー能力が向上します。

上記の画像は、KOSMOS-2.5のモデルアーキテクチャを示しています。KOSMOS-2.5の性能は、エンドツーエンドのドキュメントレベルのテキスト認識と、マークダウン形式の画像からのテキスト生成の2つの主要なタスクで評価されます。実験結果は、テキスト集中の画像タスクの理解力における強力なパフォーマンスを示しています。さらに、KOSMOS-2.5は、フューショットおよびゼロショット学習を含むシナリオで有望な能力を発揮し、テキストリッチな画像を扱う実世界のアプリケーションにおいて、多目的なツールとなります。

これらの有望な結果にもかかわらず、現在のモデルにはいくつかの制限があり、貴重な将来の研究方向を提供しています。たとえば、KOSMOS-2.5は現在、テキストの空間座標を入力と出力として事前トレーニングしているにもかかわらず、自然言語の指示を使用してドキュメント要素の位置を細かく制御することはサポートしていません。広範な研究領域では、モデルのスケーリング能力の開発をさらに進めるという重要な方向性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...

データサイエンス

「CNNによる特徴抽出の探求」

「畳み込みニューラルネットワークは、機械学習を用いた画像分類タスクにおいて、今日の基礎となっていますただし、分類の前...

AI研究

「新しいAI研究が、PanGu-Coder2モデルとRRTFフレームワークを提案し、コード生成のための事前学習済み大規模言語モデルを効果的に向上させる」というものです

大規模言語モデル(LLM)は、最近の数ヶ月で非常に注目を集めています。これらのモデルは、関連する質問に答えることや、正確...

機械学習

「Amazon SageMaker JumpStartでMistral 7Bを調整して展開する」

今日は、Amazon SageMaker JumpStartを使用してMistral 7Bモデルを微調整する機能を発表できることをお知らせいたしますAmazo...

機械学習

「マイクロソフトは、VALLE-Xをオープンソース化しました:多言語対応のテキスト読み上げ合成および音声クローニングモデル」

マイクロソフトのVALL-E XゼロショットTTSモデルのオープンソース実装が登場しました。これにより、テキスト読み上げ合成と音...

機械学習

人間のフィードバックからの強化学習(RLHF)

たぶん、あなたはこの技術について聞いたことがあるかもしれませんが、完全には理解していないかもしれません特にPPOの部分に...