マイクロソフトの研究者によって導入された新しいマルチモーダル大規模言語モデルKOSMOS-2

Microsoftの研究者によって導入されたマルチモーダル大規模言語モデルKOSMOS-2

マイクロソフトの研究者は、新しい論文でKOSMOS-2という新しいマルチモーダル大規模言語モデルを紹介しました。KOSMOS-2は、一般的なインターフェースとして成功を示すことができました。KOSMOS-2は、言語、ビジョン、ビジョン言語のタスクにおいて、接地能力を取り入れることによって、人間とAIの間の相互作用を革新することを目指しています。

マルチモーダル大規模言語モデル(MLLM)は、多様な活動において素晴らしいパフォーマンスを発揮することから、多目的なインターフェースとして現れています。これらのモデルは、テキスト、画像、音声などの異なるモダリティを使用して応答を理解し生成する能力を持つため、これらのモデルは価値があります。KOSMOS-2は、マルチモーダル大規模言語モデルの接地を可能にすることで、この能力をさらに高めています。

接地能力は、特にビジョン言語の活動において重要です。これにより、より実用的かつ効果的な人間とAIのインターフェースが提供されます。KOSMOS-2は、地理的座標に基づいて画像の特定の領域を解釈することができ、長いテキストの説明に頼らずにアイテムや興味領域を簡単に指し示すことができます。

KOSMOS-2の注目すべき機能の1つは、バウンディングボックスなどの視覚的な応答を提供する能力です。この能力により、コアファレンスの曖昧さを取り除き、正確で明確な視覚的な参照を提供することで、ビジョン言語のタスクを大いに支援します。名詞句や参照表現を特定の画像領域に接続することで、KOSMOS-2はより正確で情報豊かで包括的な応答を生成します。

KOSMOS-2に接地能力を提供するために、マイクロソフトリサーチのチームは、接地された画像テキストのペアリングのウェブスケールデータセットを構築しました。このデータセットをKOSMOS-1の既存のマルチモーダルコーパスと統合することで、モデルはその接地潜在能力を最大限に活用するようにトレーニングされました。このプロセスでは、バウンディングボックスによって表される空間的な位置に名詞句や参照表現などの関連するテキストスパンを抽出し、接続することが含まれていました。

これらの空間座標は、位置トークンに変換され、画像要素をキャプションに接続する「ハイパーリンク」として機能するデータ形式が作成されました。実験結果は、KOSMOS-2がフレーズの接地や参照表現の理解などの接地タスクにおいて優れたパフォーマンスを発揮することを示しています。

最後に、論文によれば、KOSMOS-2はKOSMOS-1で評価された言語およびビジョン言語のタスクにおいて競争力を持っています。接地能力の追加により、KOSMOS-2には接地された画像キャプショニングや接地された視覚的な質問応答などの追加の下流アプリケーションが可能になります。

興味がある場合は、GitHubで利用可能なオンラインデモを通じてKOSMOS-2の機能を探索することができます。

編集者の注:ジェネレーティブAIの最新情報を学びたいですか?一日限定のジェネレーティブAIサミットに参加しましょう。ハイプを超えて、この最先端の技術をより深く掘り下げましょう。無料で今すぐ登録して、ジェネレーティブAIの力を解き放ちましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.

大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長...

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

データサイエンス

「AWS Partition Projections Athenaクエリのパフォーマンス向上」

この記事では、AWS Athenaクエリのパフォーマンス向上の分析と、パーティションプロジェクション機能の利点について説明します

AIニュース

ChatGPTは自己を規制するための法律を作成する

コスタリカは、人工知能(AI)の規制において興味深い一歩を踏み出しました。法的な専門知識の源泉として予想外の存在であるC...

機械学習

テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う

ニューラル放射場(NeRF)は、正確で直感的な視覚化を作成する能力により、大いに人気が高まっています。これにより、イメー...

機械学習

NVIDIA CEO:クリエイターは生成的AIによって「スーパーチャージ」されるでしょう

ジェンスン・ファウンダー兼CEOは、フランスのリビエラ地方で開催されたカンヌライオンズフェスティバルで、ジェンスン・ファ...