報告書:OpenAIがGPT-VisionというマルチモーダルLLMをリリースするための取り組みを加速中

報告書:OpenAIがGPT-Visionのリリースを加速中

The Informationによるレポートによれば、OpenAIはライバルのGoogleに先駆けて高度なマルチモーダルLLMをリリースするため、GPT-Vision(コードネーム:Gobi)のリリースを加速させると報じられています。これはGoogleのマルチモーダルLLMであるGeminiが、テストのために一部の企業にリリースされたのから1週間後のことです。

では、マルチモーダルLLMとは具体的には何でしょうか?レポートによれば、これらの大規模言語モデルはテキストと画像を処理する能力を持つとされています。つまり、これらのLLMはテキストと画像を組み合わせたコンテンツを理解し、生成することができるため、拡張された機能を提供することができます。

GPT-4のリリースに関しても見てきたように、このようなリリースはOpenAIの市場リードを維持するだけでなく、一般のLLM市場での市場占有率を維持するのに役立つでしょう。しかし、まだ準備ができていません。同じレポートによれば、GPT-Visionは安全性のレビューで詰まっているとのことです。

しかし、今のところ、OpenAIのエンジニアたちは「法的懸念を満たすのに近づいているようです」とされています。最近数ヶ月間、OpenAIは著作権侵害やThe New York Timesからのトレーニングデータに関する訴訟の脅威に直面してきました。

先に述べたように、OpenAIがGoogleよりもGobiをリリースすることができれば、AIスタートアップには競合他社に対する重要な優位性が生まれます。競合他社はOpenAIに追いつくために創作AIに大きな投資をしており、それを逃すことは避けたいと考えています。

レースが始まりました。OpenAIはGeminiをリリースする前にGobiを立ち上げることを目指しています。これはもちろん、ChatGPTの大成功によるものです。市場で最初に登場したことで、OpenAIは新しいユーザーへの初めての露出を楽しみ、それをマルチモーダルLLMでも再現したいと明らかにしています。

そのため、GobiがGPT-4にもたらす可能性には興味深いものがあります。Gobiは、OpenAIが以前にプレビューしたよりも高度な視覚的およびマルチモーダルな機能をGPT-4に追加する可能性があります。

マルチモーダルの競争は激化しており、どの企業が先にリリースするかによって、市場の将来に大きな影響を与えるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

機械学習

NVIDIA NeMoを使ったスタートアップが生成AIの成功ストーリーをスタートさせました

機械学習は、ワシーム・アルシークが大学の教科書を読み進めるのを助けました。現在、彼は生成型AIを活用し、数百の企業向け...

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...

機械学習

Word2Vec、GloVe、FastText、解説

コンピューターは我々と同じように単語を理解することができませんコンピューターは数字を扱うことが好きですですから、コン...

機械学習

「2024年に探索する必要のある10の最高のGPU」

イントロダクション 人工知能(AI)、機械学習(ML)、深層学習(DL)の時代において、驚異的な計算リソースの需要は最高潮に...

データサイエンス

十年生のためのニューラルネットワークの簡略化

複雑なニューラルネットワークの概念を、コスト関数、ニューロン、バックプロパゲーション、重みとバイアスを非技術的で楽し...