「GPT-5がOpenAIによって商標登録されました:それがChatGPTの未来について何を示しているのでしょうか?」

GPT-5が商標登録されたことは、ChatGPTの未来について何を示しているか?

何を示唆しているのでしょうか?.. ChatGPT-5?

画像:Bing Image Creator + Canva

I. GPT-5の商標

2014年のBBCのインタビューで、スティーブン・ホーキングは次のような言葉を述べました –

完全な人工知能の開発は人類の終焉を意味するかもしれません。

2014年のAIの状況は今とは異なっていました。AIは企業界で関心を集めていました。その年、Googleは機械学習のスタートアップであるDeepMindを6億ドル以上で買収しました。1年後、DeepMindはヨーロッパチャンピオンのFan Huiに勝ったAlphaGoを作成しました。一方、Facebookは2つの画像が同じ人物を示しているかどうかを予測できるシステムを作成していました。

ディープラーニングの発展は黄金期でした。小さなスタートアップのOpenAIはその後1年後の2015年12月に設立されました。そして、10年後の今、AIの進展が1世紀のように感じられる中、OpenAIは2021年7月14日に米国特許商標庁(USPTO)に「GPT-5」という商標出願を行いました。

OpenAIによるこの動きは多くの憶測を呼びました。多くの人がこれがGPT4の後に彼らの言語モデルの新バージョンの可能な開発を示唆していると言っています。

このニュースは、7月31日に商標弁護士のジョシュ・ガーベンによってTwitter/Xで投稿されました。

GPT-5の商標登録は多くの人に驚きをもたらしました。

何を示唆しているのでしょうか?

II. OpenAIのコードインタプリタ:GPT-4.5とGPT-5を結ぶ、隠れたローンチ?

それほど長い時間は経っていませんが、OpenAIはChatGPTの最新機能であるコードインタプリタをリリースしました。これは、ChatGPT-4に追加された最も印象的な機能です。コードインタプリタを使用すると、ChatGPTでPythonプログラムを実行したり、ファイルをアップロードしたりダウンロードしたりすることができます。さらに、ある程度の画像処理も可能です。

「Latent Space」のポッドキャスト(7月11日)で、Simon Willison、Alex Volkov、Aravind Srinivas、Alex Graveleyは、コードインタプリタが実際にはGPT-4.5であると主張しています。もちろん、OpenAIはこれが本当にGPT 4.5であるかどうかを発表していません。ただし、これは新しいことではありません。OpenAIがGpt 3.5を静かにリリースした際にも同様の行動を見ました。

ただし、今回はOpenAIがGpt 4.5を発表していない可能性があります。これはSam Altman(OpenAIのCEO)が「六ヶ月の中断」に従うという声明に従っていることを意味します。

「AIの開発を六ヶ月中断する」というオープンレターについて話した際、Samは次のように述べました:

「私はその要点の一部に本当に賛成です… GPT-4のトレーニングが終了してからリリースするまでには六ヶ月以上かかりましたので、モデルの安全性をしっかりと研究し、何が起こっているかを理解し、できる限り対処する時間をかけることは重要です。」

同じ会話で、SamはGPT-5の開発について次のようにコメントしました:

「[OpenAI]はしばらくの間新しいバージョンのGPTを開発しませんので、その意味では[六ヶ月の中断]は愚かなものでした。」

この話は今年の3月にMITで行われたものです。こちらで短い動画クリップをご覧いただけます。

これに基づいて、私たちの多くは近い将来GPT-5をリリースすることは不可能だと確信しました。GPT-4のトレーニングが終了してからリリースまでの明確なギャップは、GPT-5のリリースがまだ開始されていないことを意味します。

少なくとも、それが予想されていたことです。

しかし、OpenAIがGPT-5の商標を登録しているというのは新しいことです。OpenAIは既にGPT-5の開発を進めている可能性があるのでしょうか?それは、AGI(あらゆるタスクを助けなしで実行できる仮説上のAI)を盛り上げるための新しいマーケティング戦略なのでしょうか?

目を細めていると、商標申請自体に手がかりが見つかります。

III. 未来を商標化する:GPT-5の多モーダルなフロンティアへのオデッセイ

さらに詳しく説明すると、GPT-5の商標申請は「言語モデルに関連するダウンロード可能なコンピュータプログラムおよびコンピュータソフトウェア」と言及しています。つまり、商標はLLMに関連する「プログラム」と「コンピュータソフトウェア」をカバーしています。

GPT-5は、今後のGPT-4のバージョンで利用されるLLMかもしれません。

商標電子検索システム(TESS)(uspto.gov)私が強調したもの

さらに、ヒントの主な骨子は上記で強調した部分から来ています。商標申請には音声とテキストの作成、言語処理、機械学習のためのソフトウェアが含まれます。また、音声と音声認識、オーディオファイルをテキストに変換するためのソフトウェアなども含まれます。

それはあなたに何か馴染みのある香りを与えますか?画像、音声、音声などと一緒に動作するチャットボットですか?

ハッ!GPTの多モーダリティです。

多モーダリティは、画像、テキスト、音声などの複数の入力形式で作業する能力を指します。人々はインターネット中に「未来はここにある」という看板を掲げてGPT-4のリリースを予期しました。この期待感は、GPT-4が近い将来におそらく画像と一緒に動作することができることを知ったときにさらに高まりました。4カ月前のGPT-4のデモライブストリームでは、モデルの多くの印象的な機能が紹介されました。これには、ミームや画像の解釈、画像のさまざまな要素の説明などが含まれます。

OpenAIの社長兼共同創設者であるグレッグ・ブロックマンは、GPT-4を使用してウェブサイトを作成する方法をデモンストレーションしました。彼は自分のノートブックのアイデアの写真を入力し、GPT4がウェブサイトのコードを生成しました。それはかなり印象的でした。私たちは未来が本当に近いと確信しました。

しかし、それはどれくらい近いのでしょうか?現時点では、私が体験した中で最も近い多モーダルな体験は、GPT4で動作するBing Chatです。理論的には、画像を使用してオンライン検索を行い、その結果を得ることができます。しかし、Bingはまだ不十分で開発が必要です。roboflowによる実験では、Bingのこの多モーダリティ機能の優れた性能が示されています。

レポートでカバーされたいくつかの注目すべき結果は次のとおりです-

「…モデルは画像に存在する人数を数えることができませんでした。驚くべきことに、他のほとんどのプロンプトよりも、簡単な構造化された形式(JSON形式)を求めることがずっと良く機能しました。それにもかかわらず、Bingは正確な位置やバウンディングボックスを抽出できず、虚偽のバウンディングボックスを生成するか、まったく回答しないことがあります…」

Roboflowは以下の強みと弱点を結論づけています-

underlying Bing Chatモデルの一つの強みは、与えられた画像の文脈やニュアンスなどの質的な特徴を認識する能力です…

そして

Bingの新しい機能の使用方法には制約があり、特に定量的なデータが重要なユースケースでは制約があります。

確かに、それはウェブサイトを作成するためには使用できません−Brockmanによるデモンストレーションのように−それではBingは「ほぼ多モーダル」です。私自身もいくつかのミームを与えましたが、それらのユーモアを説明することはできませんでした−ライブストリームのデモンストレーションで示された方法と同じ方法ではありませんでした。この機能は改善が必要でしょうか、または私のミームのセンスが悪いのかもしれません。私の場合、どちらも同じくらい可能性があります(私はミームの大ファンではありません)。

現時点では、GPT-4に基づくBing Searchだけが画像を使用して検索を行うことができます。しかし、応答は十分ではないようです。

ChatGPT、特にGPT4の場合、Code Interpreterと多モーダル性を緩く関連付けることができます。これにより、ChatGPTのパワーと一緒にドキュメントや画像で作業することができます。ドキュメントや画像のフィードは、テキストとは異なる「新しい入力」となり、GPT-4は多モーダルに該当します。したがって、GPT-4がまだ多モーダルでないと言うのは間違っています。

コードインタプリタは、マルチモーダリティの一端を提供します。これにより、ChatGPTの将来の機能に対する期待が高まります。

こんにちは、読者の皆さん!この記事を楽しんでいただけていると嬉しいです。この記事は私の「クリエイティブブロック」ニュースレターの一部です。テクノロジーとAIに関する週刊ニュースレターです。

もし、このようなコンテンツをもっと読みたい場合は、Creative Blockにアクセスしてください。

商標の「人間の音声とテキストの人工生成」というフレーズから判断すると、もしリリースされるならば、GPT-5は多様なモードに基づいている可能性が高いです。当然のことですが、テキストだけでなく、画像、音声、文書などとも連携できるChatGPTになるでしょう。

では、GPT-5のリリースはもうすぐですか?実際には、サムの発言を信じるのであれば、GPT-5のリリースはすぐには行われないということになります。彼は4月に会社がGPT-5に取り組んでいないことを確認しました。

したがって、もしこれが真実であれば、商標登録されたGPT-5は、次のGPTモデルの権利を事前に確保しています。これにより、他の企業を寄せ付けず、「競争」を減らすことができます。GPT-5は、多くの人々が予想するようにAGIではないかもしれませんし、専門家たちはAGIはまだ可能ではないと示唆しているようです。

ただし、この商標の動きを煽りと希望の視点から見ると、また別の見方ができます。そして、OpenAIは早期にそれをマスターしているようです。

IV. 煽り、希望、そしてAGIの夢

サムはブログ記事で、彼の会社の人工汎用知能(AGI)が人類に利益をもたらし、「すべての人々に信じられないほどの新しい能力を与える可能性がある」と宣言しました。

しかし、私たちはAGIには程遠いです。それは実現可能なのでしょうか?私たちは分かりません。

「経験豊富な専門家」は、私たちはAGIからは遠く離れていると信じています。一方、「AIドゥーマーズ」は、私たちはAGIに近づいていると信じています。そして、「AIインフルエンサー」は、適切なコンテンツがあれば何でも構わないので気にしません。これらの人々は、AIの未来について様々な意見を持っていますが、彼らを結ぶリンクは、どこかで彼ら全員が煽りの流れの中で漕いでいることです。それに反対する人もいれば、それに乗っかる人もいます。そして、OpenAIはその流れを体現しているようです。

2020年にOpenAIの企業文化について詳細なレポートを執筆したカレン・ハオは、「AI煽りサイクル」として同社を非難し、その内部文化が安全で研究中心のAIから先を急ぐことに反映され始めたと指摘しています。

以下は、その記事の抜粋です。

しかし、OpenAIのGPT-2とのメディアキャンペーンも、広範なAIコミュニティに不信感を抱かせるよくあるパターンに従っていました。年月を経て…目を引く研究発表は、AI煽りサイクルに燃料を補給することで何度も非難されてきました…批判者たちは、研究所が結果を誇張しすぎたと非難してきました。そのため、この分野の多くの人々はOpenAIを距離を置こうとしてきました。

― カレン・ハオ、「The messy, secretive reality behind OpenAI’s bid to save the world | MIT Technology Review」より

しかし、煽りと噂が真実であると仮定してみましょう — OpenAIは彼らの秘密の地下室でGPT-5を作っていると主張しています。

彼らは、GPT-5が非常に印象的であり、ChatGPTがAGIに達したのか疑問に思うほどだと主張しています。未来は今ここにあるのです。

物語と煽りに基づけば、GPT-5またはChatGPT 5は次のようなものをもたらすでしょう:

  • マルチモーダルな機能:GPT-4は既に画像とテキストの入力を処理できます — これは良いスタートです。しかし、音声やビデオの入力にまだ改善の余地があります。GoogleやMetaなどの企業は、さまざまなテキスト音声変換やテキスト音楽変換ツールを使用して実験を行っています。Googleはまた、PaLM 2言語モデルを開発するためにマルチモーダルAIを試験しました。しかし、これらの機能はまだ断片的です。もし噂が本当なら、次のChatGPTはこれらのマルチモーダル機能を統合したオールインワンのChatGPTになるでしょう。そしてもちろん、生成型AIの競争がOpenAIや他のAI企業にAGIに近いものをイノベーションさせるという期待があります。これが煽りによるAI競争の期待です。
  • 精度の向上:幻覚(AIが事実をでっち上げる傾向)を取り除くことは不可能ですが、新しいGPTのバージョンでは改善が見られます。OpenAIによれば、GPT-4は事実をでっち上げる可能性が60%低くなっています。後続のAIモデルは、前のバージョンよりも精度を向上させようとします。私たちはGPT-3やGPT-4、LlamaやLlama2、ClaudeやClaude 2でこれを見ることができました — そこでは精度の改善が見られました。GPTの将来のバージョンでは、不正確さを修正するためにトレーニングデータセットを拡大する可能性があります。ただし、現在のChatGPTの運用には1日あたり70万ドルかかっているため、それをより正確でリソースを消費しない方法がない場合、GPT-5は近い将来には実現されません。
  • 人工汎用知能(AGI):これはすべてのAI研究会社が向かっている最終目標です。それが実現可能かどうかはまだ議論の余地がありますが、理論上はAGIは近い将来実現できないと言えるでしょう。理論上、AGIは何でも自己で行うAIですが、実際にはどのように取り組むかが問題です。コンピュータは世界に存在しておらず、人間のためにタスクを実行するためには、環境と相互作用する必要があります。どのように進めるかはまだ誰も知りませんが、答えは神経科学と深層学習の結合にあるようです。もしGPT-5がAGIを提供する(非常に憶測的ですが)場合、それはAIだけでなく、技術全体の分野にとっても別のマイルストーンになるでしょう。アルゴリズムから生まれた生きて考える心を復活させることは、間違いなく素晴らしいことです。

V. AGIの夢を築く

この文章を書いている間に、GPT-5の商標申請が現在審査待ちです。しかし、こういったことが一部の人々の注目を集めると、AIコミュニティ内では多くの好奇心と憶測が生まれます。常に二つの派閥が存在します。一つは懐疑的な視点で見る人々であり、もう一つは楽観的な視点で見る人々です。一部の人々は昨日の事実を信じ、他の人々は明日の希望を信じています。それにもかかわらず、どちらの派閥も同じく重要です-特にAIの統治に関しては。

より厳しい規制と法律-例えばEUのAI法案や米国のAI法案-により、AI企業が突破口を保証することはますます制約されています。しかし、このような厳しい措置は正当化されているのでしょうか?私はそう信じています。

過去数年間、AIの領域での進展の量を観察すると、成長は指数関数的になっています。

しかし、企業界における競争の増加から生じる安全性の側面は懸念事項です。OpenAIは営利企業になりました。投資家は「AIパワード」になる会社に資金を費やし始め、AI競争は激化しています。

単なる進歩だけでは十分ではありません。私たちは安全な進歩が必要です- NLP、マルチモダリティ、そして人工汎用知能の開発における安全な進歩が必要です。

しかし、知的財産を保護するための商標登録や、ハイプと期待を作り出すためのマーケティング戦略として商標を求めることは、競争を減らすのではなく、むしろ増やすだけです。

それが言えるとすれば、もしGPT-5が私たちの期待に応えるものになるのであれば、それは間違いなくAIの分野で再びゲームチェンジャーとなるでしょう。しかし、それはもしAGIに近いもの、もしくは完全なAGIになる場合の話です。

それでも、私たちがAGIに到達するという最も狂った夢でも、安全性と規制が優先されなければなりません。そうでなければ、AIレースでのAGIの追求は、ホーキングの言葉によれば、人類の終焉をもたらす可能性があります。

野生のAGIは驚異的なことを成し遂げることができます-破壊の観点からもです。

テック、サイエンス、AIの最新のイベントについて最新情報を知りたいですか?

それなら、私の無料の週刊ニュースレターを読んでみてください。そこでは、テックとAIに関連するすべてのことについての洞察、ニュース、分析を共有しています。

Creative Block | Aditya Anil | Substack

100+ サブスクリバー。あなたに重要なAI、テクノロジー、サイエンスに関する週刊ニュースレター。クリックして読んでください。

creativeblock.substack.com

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「トポロジカルキュービットの物語」

エキゾチックな量子状態の振る舞いを模倣することで、量子コンピューティングは厄介なノイズやエラーを効果的に取り除く手段...

AI研究

IBMの研究者が、深層学習推論のためのアナログAIチップを紹介:スケーラブルなミックスドシグナルアーキテクチャの重要な構成要素を披露

AI革命が進行中であり、ライフスタイルや職場を再構築することが期待されています。深層ニューラルネットワーク(DNN)は、基...

機械学習

プログラム合成 - コードが自己書きすることを実現する

「プログラム合成」という言葉を聞いたことはあるかもしれませんが、完全に理解していないかもしれませんこれは、しばしばAI...

AIニュース

ドローンが風力タービンを氷から保護する

研究者たちは、ドローンを使用して風力タービンを氷から保護する方法を開発しました

機械学習

「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」

大規模言語モデル(LLMs)は、自然言語処理と自然言語理解の分野で世界的な評価を受け、非常に人気があります。これにより、...

データサイエンス

ドキュメント指向エージェント:ベクトルデータベース、LLMs、Langchain、FastAPI、およびDockerとの旅

ChromaDB、Langchain、およびChatGPTを活用した大規模ドキュメントデータベースからの強化された応答と引用されたソース