アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

Alibaba announced two open-source large-scale vision language models (LVLM), Qwen-VL and Qwen-VL-Chat.

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となってきました。これにより、革新的な解決策を求める人々が多く存在しています。AIコミュニティは近年驚くべき進歩を遂げたものの、画像を理解し、洗練されたクエリに応答できる多目的でオープンソースのモデルが依然として必要です。

既存の解決策は確かにAIの進歩を促進してきましたが、画像理解とテキストインタラクションのシームレスな統合にはまだまだ課題が残っています。これらの制約は、画像とテキストの処理の多面的な要求に対応できるより洗練されたモデルを求める探求心を刺激しています。

アリババは、2つのオープンソースの大視野言語モデル(LVLM)「Qwen-VL」と「Qwen-VL-Chat」を紹介しています。これらのAIツールは、画像を理解し、複雑なクエリに対応するという課題に対する有望な解答として現れています。

最初のモデルである「Qwen-VL」は、アリババの70億パラメータモデル「通意千文」という洗練された子孫のようなものです。このモデルは、画像とテキストのプロンプトをシームレスに処理する優れた能力を発揮し、魅力的な画像キャプションの作成や多様な画像に関連する開放型のクエリに対応するなどのタスクで優れた成果を上げています。

一方、「Qwen-VL-Chat」は、より複雑な対話に取り組むことでこの概念をさらに推進しています。高度なアライメント技術によって強化されたこのAIモデルは、入力画像に基づいて詩や物語を作成したり、画像に埋め込まれた複雑な数学の問題を解決したりするなど、驚くべき才能の幅広さを示しています。これにより、英語と中国語の両方で画像とテキストのインタラクションの可能性が再定義されます。

これらのモデルの能力は、印象的なメトリクスによって裏付けられています。たとえば、「Qwen-VL」は、トレーニング中により大きな画像(448×448解像度)を扱う能力を示し、より小さな画像(224×224解像度)に制限された類似のモデルを上回りました。また、写真に関する事前情報なしで写真を記述したり、写真に関する質問に答えたり、画像内のオブジェクトを検出したりするタスクにおいても優れた能力を示しました。

一方、「Qwen-VL-Chat」は、アリババクラウドが設定したベンチマークテストセットにおいて、単語と画像の関係を理解し議論する能力で他のAIツールを上回りました。300以上の写真、800以上の質問、27の異なるカテゴリを備えたこのモデルは、中国語と英語の両方で写真に関する会話において優れた能力を発揮しました。

この開発の最も興奮すべき側面は、アリババのオープンソース技術への取り組みです。同社はこれら2つのAIモデルをグローバルコミュニティにオープンソースのソリューションとして提供する意向です。これにより、システムの広範なトレーニングの必要性を排除し、高度なAIツールへのアクセスを民主化するため、開発者や研究者はこれらの先端的な機能を利用することが可能になり、結果として費用を削減することができます。

まとめると、アリババの「Qwen-VL」と「Qwen-VL-Chat」の導入は、画像理解とテキストインタラクションのシームレスな統合というAIの分野における重要な進展を表しています。これらのオープンソースモデルは、その印象的な能力により、AIアプリケーションの景観を再構築し、イノベーションとアクセシビリティを世界中に広げる可能性を秘めています。AIコミュニティは、これらのモデルのリリースを熱望しながら、AIによる画像とテキストの処理の未来は約束され、可能性に満ちているとしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

AI研究

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

ヴァンダービルト大学とカリフォルニア大学デービス校の研究者は、PRANCと呼ばれる枠組みを導入しました。この枠組みは、重み...

機械学習

コードのための大規模な言語モデルの構築とトレーニング:StarCoderへの深い探求

イントロダクション こんにちは、テック愛好家の皆さん!今日は、大規模な言語モデル(LLM)を構築してトレーニングする魅力...

AIニュース

GoogleのAIスタジオ:ジェミニの創造的な宇宙への入り口!

Googleは、AI Studioの発売を通じて、開発者向けの画期的な革新を実現しました。このWebベースのプラットフォームは、Gemini ...

AIニュース

「GoogleのAIの驚異的な進化、GeminiとゲームチェンジャーのStubbsを紹介します」

AIの生成を基本的なツールやサービスに統合しようという動きは、急速に変化するデジタルエコシステムにおいて活発な闘いに発...

AI研究

デジタルルネッサンス:NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップ...