マイクロソフトの研究者によって導入された新しいマルチモーダル大規模言語モデルKOSMOS-2
Microsoftの研究者によって導入されたマルチモーダル大規模言語モデルKOSMOS-2
マイクロソフトの研究者は、新しい論文でKOSMOS-2という新しいマルチモーダル大規模言語モデルを紹介しました。KOSMOS-2は、一般的なインターフェースとして成功を示すことができました。KOSMOS-2は、言語、ビジョン、ビジョン言語のタスクにおいて、接地能力を取り入れることによって、人間とAIの間の相互作用を革新することを目指しています。
マルチモーダル大規模言語モデル(MLLM)は、多様な活動において素晴らしいパフォーマンスを発揮することから、多目的なインターフェースとして現れています。これらのモデルは、テキスト、画像、音声などの異なるモダリティを使用して応答を理解し生成する能力を持つため、これらのモデルは価値があります。KOSMOS-2は、マルチモーダル大規模言語モデルの接地を可能にすることで、この能力をさらに高めています。
接地能力は、特にビジョン言語の活動において重要です。これにより、より実用的かつ効果的な人間とAIのインターフェースが提供されます。KOSMOS-2は、地理的座標に基づいて画像の特定の領域を解釈することができ、長いテキストの説明に頼らずにアイテムや興味領域を簡単に指し示すことができます。
KOSMOS-2の注目すべき機能の1つは、バウンディングボックスなどの視覚的な応答を提供する能力です。この能力により、コアファレンスの曖昧さを取り除き、正確で明確な視覚的な参照を提供することで、ビジョン言語のタスクを大いに支援します。名詞句や参照表現を特定の画像領域に接続することで、KOSMOS-2はより正確で情報豊かで包括的な応答を生成します。
KOSMOS-2に接地能力を提供するために、マイクロソフトリサーチのチームは、接地された画像テキストのペアリングのウェブスケールデータセットを構築しました。このデータセットをKOSMOS-1の既存のマルチモーダルコーパスと統合することで、モデルはその接地潜在能力を最大限に活用するようにトレーニングされました。このプロセスでは、バウンディングボックスによって表される空間的な位置に名詞句や参照表現などの関連するテキストスパンを抽出し、接続することが含まれていました。
これらの空間座標は、位置トークンに変換され、画像要素をキャプションに接続する「ハイパーリンク」として機能するデータ形式が作成されました。実験結果は、KOSMOS-2がフレーズの接地や参照表現の理解などの接地タスクにおいて優れたパフォーマンスを発揮することを示しています。
最後に、論文によれば、KOSMOS-2はKOSMOS-1で評価された言語およびビジョン言語のタスクにおいて競争力を持っています。接地能力の追加により、KOSMOS-2には接地された画像キャプショニングや接地された視覚的な質問応答などの追加の下流アプリケーションが可能になります。
興味がある場合は、GitHubで利用可能なオンラインデモを通じてKOSMOS-2の機能を探索することができます。
編集者の注:ジェネレーティブAIの最新情報を学びたいですか?一日限定のジェネレーティブAIサミットに参加しましょう。ハイプを超えて、この最先端の技術をより深く掘り下げましょう。無料で今すぐ登録して、ジェネレーティブAIの力を解き放ちましょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles