マイクロソフトの研究者によって導入された新しいマルチモーダル大規模言語モデルKOSMOS-2

Microsoftの研究者によって導入されたマルチモーダル大規模言語モデルKOSMOS-2

マイクロソフトの研究者は、新しい論文でKOSMOS-2という新しいマルチモーダル大規模言語モデルを紹介しました。KOSMOS-2は、一般的なインターフェースとして成功を示すことができました。KOSMOS-2は、言語、ビジョン、ビジョン言語のタスクにおいて、接地能力を取り入れることによって、人間とAIの間の相互作用を革新することを目指しています。

マルチモーダル大規模言語モデル(MLLM)は、多様な活動において素晴らしいパフォーマンスを発揮することから、多目的なインターフェースとして現れています。これらのモデルは、テキスト、画像、音声などの異なるモダリティを使用して応答を理解し生成する能力を持つため、これらのモデルは価値があります。KOSMOS-2は、マルチモーダル大規模言語モデルの接地を可能にすることで、この能力をさらに高めています。

接地能力は、特にビジョン言語の活動において重要です。これにより、より実用的かつ効果的な人間とAIのインターフェースが提供されます。KOSMOS-2は、地理的座標に基づいて画像の特定の領域を解釈することができ、長いテキストの説明に頼らずにアイテムや興味領域を簡単に指し示すことができます。

KOSMOS-2の注目すべき機能の1つは、バウンディングボックスなどの視覚的な応答を提供する能力です。この能力により、コアファレンスの曖昧さを取り除き、正確で明確な視覚的な参照を提供することで、ビジョン言語のタスクを大いに支援します。名詞句や参照表現を特定の画像領域に接続することで、KOSMOS-2はより正確で情報豊かで包括的な応答を生成します。

KOSMOS-2に接地能力を提供するために、マイクロソフトリサーチのチームは、接地された画像テキストのペアリングのウェブスケールデータセットを構築しました。このデータセットをKOSMOS-1の既存のマルチモーダルコーパスと統合することで、モデルはその接地潜在能力を最大限に活用するようにトレーニングされました。このプロセスでは、バウンディングボックスによって表される空間的な位置に名詞句や参照表現などの関連するテキストスパンを抽出し、接続することが含まれていました。

これらの空間座標は、位置トークンに変換され、画像要素をキャプションに接続する「ハイパーリンク」として機能するデータ形式が作成されました。実験結果は、KOSMOS-2がフレーズの接地や参照表現の理解などの接地タスクにおいて優れたパフォーマンスを発揮することを示しています。

最後に、論文によれば、KOSMOS-2はKOSMOS-1で評価された言語およびビジョン言語のタスクにおいて競争力を持っています。接地能力の追加により、KOSMOS-2には接地された画像キャプショニングや接地された視覚的な質問応答などの追加の下流アプリケーションが可能になります。

興味がある場合は、GitHubで利用可能なオンラインデモを通じてKOSMOS-2の機能を探索することができます。

編集者の注:ジェネレーティブAIの最新情報を学びたいですか?一日限定のジェネレーティブAIサミットに参加しましょう。ハイプを超えて、この最先端の技術をより深く掘り下げましょう。無料で今すぐ登録して、ジェネレーティブAIの力を解き放ちましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon Textract、Amazon Bedrock、およびLangChainによるインテリジェントドキュメント処理」

今日の情報時代において、無数の書類に収められた膨大なデータ量は、企業にとって挑戦と機会を同時にもたらします従来の書類...

AI研究

Allen Institute for AI の研究者が、自然言語の指示に基づいて複雑で構成的な視覚的タスクを解決するための神経記号アプローチである VISPROG を紹介します

汎用AIシステムを探すことで、熟練したエンドツーエンドトレーニングモデルの開発が促進され、多くのモデルがユーザーがモデ...

機械学習

LangChain、Amazon SageMaker JumpStart、およびMongoDB Atlasの意味検索を利用した検索増強生成

生成AIモデルは、企業の業務を革命化する可能性がありますが、企業はデータの保護やAI生成コンテンツの品質を確保しながら、...

機械学習

「総合的な指標を通じて深層生成モデルのエンジニアリング設計評価を向上させる」

エンジニアリングデザインにおいて、深層生成モデル(DGMs)への依存度が近年急速に上昇しています。しかし、これらのモデル...

AIニュース

新しいZeroscope v2モデルに会ってください:モダンなグラフィックカード上で動作する無料のテキストからビデオへのモデル

前例のない一連の出来事の中で、次世代のオープンソースAIモデルであるZeroscopeが市場に登場しました。このモデルは、比較的...

人工知能

「モノのインターネット」から「すべてのインターネット」へ:AIと6Gの融合によるつながる知性

「人工知能や6Gなどの最先端技術が、すべてがインターネットに接続される新しい時代を招く方法を学びましょう」