報告書:OpenAIがGPT-VisionというマルチモーダルLLMをリリースするための取り組みを加速中

報告書:OpenAIがGPT-Visionのリリースを加速中

The Informationによるレポートによれば、OpenAIはライバルのGoogleに先駆けて高度なマルチモーダルLLMをリリースするため、GPT-Vision(コードネーム:Gobi)のリリースを加速させると報じられています。これはGoogleのマルチモーダルLLMであるGeminiが、テストのために一部の企業にリリースされたのから1週間後のことです。

では、マルチモーダルLLMとは具体的には何でしょうか?レポートによれば、これらの大規模言語モデルはテキストと画像を処理する能力を持つとされています。つまり、これらのLLMはテキストと画像を組み合わせたコンテンツを理解し、生成することができるため、拡張された機能を提供することができます。

GPT-4のリリースに関しても見てきたように、このようなリリースはOpenAIの市場リードを維持するだけでなく、一般のLLM市場での市場占有率を維持するのに役立つでしょう。しかし、まだ準備ができていません。同じレポートによれば、GPT-Visionは安全性のレビューで詰まっているとのことです。

しかし、今のところ、OpenAIのエンジニアたちは「法的懸念を満たすのに近づいているようです」とされています。最近数ヶ月間、OpenAIは著作権侵害やThe New York Timesからのトレーニングデータに関する訴訟の脅威に直面してきました。

先に述べたように、OpenAIがGoogleよりもGobiをリリースすることができれば、AIスタートアップには競合他社に対する重要な優位性が生まれます。競合他社はOpenAIに追いつくために創作AIに大きな投資をしており、それを逃すことは避けたいと考えています。

レースが始まりました。OpenAIはGeminiをリリースする前にGobiを立ち上げることを目指しています。これはもちろん、ChatGPTの大成功によるものです。市場で最初に登場したことで、OpenAIは新しいユーザーへの初めての露出を楽しみ、それをマルチモーダルLLMでも再現したいと明らかにしています。

そのため、GobiがGPT-4にもたらす可能性には興味深いものがあります。Gobiは、OpenAIが以前にプレビューしたよりも高度な視覚的およびマルチモーダルな機能をGPT-4に追加する可能性があります。

マルチモーダルの競争は激化しており、どの企業が先にリリースするかによって、市場の将来に大きな影響を与えるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

芝浦工業大学の研究者たちは、深層学習を用いて顔方向検出を革新します:隠れた顔の特徴や広がる画角の課題に挑戦しています

コンピュータビジョンと人間との相互作用において、顔の向き推定という重要なタスクは、多様な応用を持つ重要な要素として浮...

人工知能

「Midjourneyを使ってYouTubeのサムネイルを作る方法(販売可能なもの)」

無料でMidjourneyを使って、高品質なYouTubeのサムネイル(オンラインで販売可能)を作成することができます

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

機械学習

NVIDIA H100 GPUがMLPerfベンチマークのデビューで生成型AIの標準を設定

主要のユーザーと業界標準のベンチマークによれば、NVIDIAのH100 Tensor Core GPUは特に生成型AIを駆動する大規模言語モデル...

人工知能

「Azureプロジェクト管理のナビゲーション:効率的な運用と展開についての深い探求」

「エキスパートのストラテジーを使用して、シームレスな操作と成功した展開に必要なキーワードを明らかにし、Microsoft Azure...

AIニュース

シカゴ大学と東京大学との量子コンピューティングパートナーシップ

東京大学、シカゴ大学、そしてGoogleは、量子情報科学とエンジニアリングに関する戦略的パートナーシップを確立しました