報告書:OpenAIがGPT-VisionというマルチモーダルLLMをリリースするための取り組みを加速中

報告書:OpenAIがGPT-Visionのリリースを加速中

The Informationによるレポートによれば、OpenAIはライバルのGoogleに先駆けて高度なマルチモーダルLLMをリリースするため、GPT-Vision(コードネーム:Gobi)のリリースを加速させると報じられています。これはGoogleのマルチモーダルLLMであるGeminiが、テストのために一部の企業にリリースされたのから1週間後のことです。

では、マルチモーダルLLMとは具体的には何でしょうか?レポートによれば、これらの大規模言語モデルはテキストと画像を処理する能力を持つとされています。つまり、これらのLLMはテキストと画像を組み合わせたコンテンツを理解し、生成することができるため、拡張された機能を提供することができます。

GPT-4のリリースに関しても見てきたように、このようなリリースはOpenAIの市場リードを維持するだけでなく、一般のLLM市場での市場占有率を維持するのに役立つでしょう。しかし、まだ準備ができていません。同じレポートによれば、GPT-Visionは安全性のレビューで詰まっているとのことです。

しかし、今のところ、OpenAIのエンジニアたちは「法的懸念を満たすのに近づいているようです」とされています。最近数ヶ月間、OpenAIは著作権侵害やThe New York Timesからのトレーニングデータに関する訴訟の脅威に直面してきました。

先に述べたように、OpenAIがGoogleよりもGobiをリリースすることができれば、AIスタートアップには競合他社に対する重要な優位性が生まれます。競合他社はOpenAIに追いつくために創作AIに大きな投資をしており、それを逃すことは避けたいと考えています。

レースが始まりました。OpenAIはGeminiをリリースする前にGobiを立ち上げることを目指しています。これはもちろん、ChatGPTの大成功によるものです。市場で最初に登場したことで、OpenAIは新しいユーザーへの初めての露出を楽しみ、それをマルチモーダルLLMでも再現したいと明らかにしています。

そのため、GobiがGPT-4にもたらす可能性には興味深いものがあります。Gobiは、OpenAIが以前にプレビューしたよりも高度な視覚的およびマルチモーダルな機能をGPT-4に追加する可能性があります。

マルチモーダルの競争は激化しており、どの企業が先にリリースするかによって、市場の将来に大きな影響を与えるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

Google DeepMindは、ロボット技術の向上のために新しいビジョン・言語・アクションモデルを紹介します

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

データサイエンス

QRコードに飽きた?独自のフィジュアルマーカーを作りましょう

「QRコードを置き換えるためにフィドゥシャリマーカーを作成する方法を学びましょう:設計から検出まで、解読を通して、すべ...

機械学習

「さまざまな深層学習を用いた天気予測モデルに関する研究」

気象予測の世界的な影響を考慮して、様々な研究コミュニティの研究者の関心を引いてきました。最近のディープラーニング技術...

AI研究

「INDIAaiとMetaが連携:AIイノベーションと共同作業の道を開く」

有望な展開として、INDIAaiとMetaが人工知能(AI)と新興技術の領域で強力な協力関係を築いています。両組織は覚書(MoU)に...

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...