マイクロソフトの研究者によって導入された新しいマルチモーダル大規模言語モデルKOSMOS-2

Microsoftの研究者によって導入されたマルチモーダル大規模言語モデルKOSMOS-2

マイクロソフトの研究者は、新しい論文でKOSMOS-2という新しいマルチモーダル大規模言語モデルを紹介しました。KOSMOS-2は、一般的なインターフェースとして成功を示すことができました。KOSMOS-2は、言語、ビジョン、ビジョン言語のタスクにおいて、接地能力を取り入れることによって、人間とAIの間の相互作用を革新することを目指しています。

マルチモーダル大規模言語モデル(MLLM)は、多様な活動において素晴らしいパフォーマンスを発揮することから、多目的なインターフェースとして現れています。これらのモデルは、テキスト、画像、音声などの異なるモダリティを使用して応答を理解し生成する能力を持つため、これらのモデルは価値があります。KOSMOS-2は、マルチモーダル大規模言語モデルの接地を可能にすることで、この能力をさらに高めています。

接地能力は、特にビジョン言語の活動において重要です。これにより、より実用的かつ効果的な人間とAIのインターフェースが提供されます。KOSMOS-2は、地理的座標に基づいて画像の特定の領域を解釈することができ、長いテキストの説明に頼らずにアイテムや興味領域を簡単に指し示すことができます。

KOSMOS-2の注目すべき機能の1つは、バウンディングボックスなどの視覚的な応答を提供する能力です。この能力により、コアファレンスの曖昧さを取り除き、正確で明確な視覚的な参照を提供することで、ビジョン言語のタスクを大いに支援します。名詞句や参照表現を特定の画像領域に接続することで、KOSMOS-2はより正確で情報豊かで包括的な応答を生成します。

KOSMOS-2に接地能力を提供するために、マイクロソフトリサーチのチームは、接地された画像テキストのペアリングのウェブスケールデータセットを構築しました。このデータセットをKOSMOS-1の既存のマルチモーダルコーパスと統合することで、モデルはその接地潜在能力を最大限に活用するようにトレーニングされました。このプロセスでは、バウンディングボックスによって表される空間的な位置に名詞句や参照表現などの関連するテキストスパンを抽出し、接続することが含まれていました。

これらの空間座標は、位置トークンに変換され、画像要素をキャプションに接続する「ハイパーリンク」として機能するデータ形式が作成されました。実験結果は、KOSMOS-2がフレーズの接地や参照表現の理解などの接地タスクにおいて優れたパフォーマンスを発揮することを示しています。

最後に、論文によれば、KOSMOS-2はKOSMOS-1で評価された言語およびビジョン言語のタスクにおいて競争力を持っています。接地能力の追加により、KOSMOS-2には接地された画像キャプショニングや接地された視覚的な質問応答などの追加の下流アプリケーションが可能になります。

興味がある場合は、GitHubで利用可能なオンラインデモを通じてKOSMOS-2の機能を探索することができます。

編集者の注:ジェネレーティブAIの最新情報を学びたいですか?一日限定のジェネレーティブAIサミットに参加しましょう。ハイプを超えて、この最先端の技術をより深く掘り下げましょう。無料で今すぐ登録して、ジェネレーティブAIの力を解き放ちましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

医学論文のLLaMAのFine-tuning:バイオメディカルQAベンチマークで高い性能を発揮するPMC-LLaMA-Aモデルに出会ってください

大規模言語モデル(LLM)の開発、例えばOpenAIのChatGPTやGPT-4などは、自然言語処理、コンピュータビジョン、バイオメディカ...

機械学習

「スロープ・トランスフォーマーに出会ってください:銀行の言語を理解するために特別に訓練された大規模な言語モデル(LLM)」

支払いにおいて、トランザクションの理解は事業のリスク評価において重要です。しかし、乱雑な銀行の取引データの解読は課題...

機械学習

「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の...

AIニュース

「ベストプロキシサーバー(2023年9月)」

プロキシサーバは、コンピュータが自分自身の代わりにリクエストを行うためのネットワーク上で動作するアプリケーションまた...

AI研究

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手...

データサイエンス

「HuggingFaceを使用したLlama 2 7B Fine-TunedモデルのGPTQ量子化」

前の記事では、Meta AIが最近リリースした新しいLlama 2モデルを使用して、わずか数行のコードでPythonコードジェネレータを...