「比喩的に言えば、ChatGPTは生きている」

「比喩的に言えば、ChatGPTは美とファッションの専門家」

ChatGPTはついにマルチモーダルになりました

Image: ビングイメージクリエーター — 画像: ビングイメージクリエーター

ChatGPTの成長はこれまで劇的でした。最近、OpenAIはChatGPTが聴覚、視覚、話すことができるようになったことを発表しました。

ChatGPTのマルチモーダル性は新たな形をとりました。

2023年11月、OpenAIのChatGPTがインターネットに登場しました。その2ヶ月後、1億人以上のユーザーを抱え、歴史上最も急速に成長する消費者向けソフトウェアアプリケーションの称号を獲得しました。この非営利団体は利益を得るチャンスを見いだし、実現しました。

その利益はフリーミアムサービスから得られましたが、それらの利益のほとんどや資金は、LLMモデルの資源需要のために莫大な請求書の支払いに大部分が充てられました。

2023年3月14日、GPT 4の発売により、OpenAIの名前は超知能ユートピアで確固たるものとなり、AIおよびNLP技術の境界をさらに拡大する重要なプレイヤーとなりました。

他の大手企業も興味を示しました。誰もがこれらの境界をさらに広げ始めました。同時に、これらのテック企業のほとんどがこの革命的なAI分野から大きな利益を上げていました。

Microsoftなどの企業から数十億ドルの支援を受けていたChatGPTは、ついに見ることができ、聴くことも話すこともできるようになりました。

比喩的に言えば、ChatGPTは生きているのです。

I. Voice: ChatGPTが話すとき

OpenAIが公開したこのデモ動画で、ChatGPTアプリの新しいマルチモーダル機能が明らかにされています:

これはChatGPTにとっての「Hello World」とも言える瞬間であり、その新しいマルチモーダルのアップグレードのおかげでChatGPTは生きているのです。

ユーザーは声を通じてChatGPTに指示を送ることができます。ChatGPTは自然な声で応答します。新しい音声機能により、ChatGPTは非常にパワフルな音声アシスタントに昇格しました。

“私たちはプロの声優と共同で各声を作り上げました。また、Whisperを使用して話した言葉をテキストに変換しています。”とOpenAIは発表記事で述べています。

WhisperはOpenAIによって訓練された音声認識システムであり、680,000時間のデータを用いています。

OpenAIによるデモでは、ユーザーがChatGPTアプリにハリネズミの寝かしつけ話をしてほしいと頼むと、ChatGPTが物語を語ります。それはChatGPTと似ていると言われ、ZDNetによる報告によると、AmazonのAlexaのような音声アシスタントの機能に似ています。

実際、噂によると、AlexaはGPT4のような生成AIを統合して、より信頼性の高い、そして賢い音声アシスタントにする考えがあるとされています。

II. Image: AIが見るとき

OpenAIのデモでは、ユーザーがChatGPTに自転車の修理を依頼するために自転車の画像をアプリに送信しました。ChatGPTはそれらの画像を「見」て、自転車を修理する解決策を提案しました[1]。

ChatGPTが指示マニュアルとツールを関連付け、実際に自転車を修理する方法をユーザーにガイドできたとき、興味深いことが起こりました。[2]

画像入力機能はさまざまな状況で役立ちます：オブジェクトの識別、数学の問題の解決、指示書の読み取り、自転車の修理などです。画像を見る能力は、分析を必要とする視覚的な作業を大幅に改善することができます。

この機能の興味深い応用は、デンマークのスタートアップ企業Be My Eyesが利用しています。

Be My Eyesは、2012年以来、250万人以上の視覚障害を持つ人々のための技術を開発しています。彼らはGPT-4を使用して、これらの障害を持つ人々を支援するために、以前のVirtual Volunteer™ appのGPT-4パワードAIバージョンを開発しました。

これにより、すでに盲目の生徒たちに彼らの課題で援助しているBe My Eyesアプリは、より良く、信頼性の高いものになります。

こんにちは、読者の皆様！この記事を楽しんでいただけていることを願っています。この記事は私のCreative Blockニュースレターの一部です- AI、テクノロジー、科学に関する週刊ニュースレターです。このような投稿をもっと読みたい場合は、Creative Blockにアクセスしてください。

続きましょう。

OpenAIによると、Be My Eyesは画像の能力のおかげで、ユーザーが周囲の状況について知ることができるため、多くのユーザーに利益をもたらすことができます。

「画像理解は、マルチモーダルなGPT-3.5とGPT-4によって提供されています。これらのモデルは、写真、スクリーンショット、テキストと画像の両方を含んだドキュメントなど、さまざまな画像に言語の推論スキルを適用します」とOpenAIはブログで述べています。

III. 安全性：ChatGPTが安全になる（試みる）場合

Image: Bing Image Creator — 画像：Bing Image Creator

OpenAIは、リスクを探索し軽減するためにベータテストと「レッドチーミング」を行いました。

これにより、ChatGPTはほぼ安全になることができます。

それほど遠くない昔、OpenAIはGPT-4Vというモデルのテストに関する論文を公表しました。GPT-4VはGPT-4(V)isionという言葉に由来し、ユーザーが提供した画像入力を解析するためのGPT-4モデルです。

OpenAI自身の言葉によると、主な目標は「GPT-4Vとの実際の対話の方法についての追加のフィードバックと洞察を得ること」でした。

その論文は、GPT4のマルチモーダル性のリスクを垣間見ることができます。

OpenAIのポジティブな評価によれば、ChatGPTは有害なコンテンツを回避しました。実際の人物を含むAI画像を生成しないように拒否するようです。さらに、GPT4-Vは画像内の人物を識別することも拒否しました。

ただし、ネガティブな評価では、GPT-4Vはディスインフォメーションを生成したり、CAPTCHAを解除したり、画像のジオロケーションを行うことに制約があります。

それに基づいて、OpenAIは次のように述べています：

「…CAPTCHAを解決する能力などのタスクは、モデルがパズルを解いたり、複雑な視覚的な思考タスクを実行したりする能力を示しています。ジオロケーションの評価の高い性能は、モデルが持つワールドナレッジや、アイテムや場所を検索しようとするユーザーに有用です」とOpenAIはGPT-4V(ision) System Cardのレポートハイライトで述べています

AIのおかげで、CAPTCHAの日々は終わりました。

OpenAIは興味深い発見をしました。GPT-4Vは画像ベースの「ジェイルブレイク」を拒否する能力がかなり優れています。

画像のジェイルブレイクとは、組み込まれた制限や制約を回避するために、画像生成AIモデル（midjourney、dalle3など）を変更するプロセスを指す言葉です。

画像モデルをハッキング（むしろトリッキング）する形式で、彼らの欠陥を利用するか、入力を操作して、感性的な画像を生成する技術です。

OpenAIによる下のグラフから見ると、GPT-4は拒否率が85％以上という牢破りを達成しました。

このグラフでは、GPT4の3つのバリエーション：GPT-4リリース、GPT-4V、GPT-4V + 拒否システムを比較しています。

OpenAIはまた、「赤チーム」と呼ばれるチームを参加させ、そのモデルの科学的領域での能力（出版物の画像理解、CTスキャンなどの医療画像を用いた医療アドバイスの提供能力など）をテストしました。

では、これは信頼できるのでしょうか？もちろん、そうではありません。

OpenAIの結論は明確です。「現行のGPT-4Vのバージョンは、医療機能を実行するには適していない」と述べています。

したがって、画像の機能はまだ完全に信頼できるものではありません。ただし、それでも大きな進歩です。

OpenAIのブログでは、これらの新機能はゆっくりと導入されると述べられており、安全上の懸念が引用されています。

IV. AGIの夢はどこに向かっているのか？

OpenAIのChatGPTへの最新の追加は、非常に注目に値します。マルチモダリティは、OpenAIがAGIを達成するために進むべき道です。

AGIを達成するかどうかは議論の余地があります。AGIが実現したことをどのように知るのでしょうか？実際には、多くのAI専門家にさえ明確ではありません。

しかし、大まかな言葉で言えば、AGIの意味はわかるかもしれません。人間の認知能力と同じレベルであるAIを意味する、人工汎用知能（AGI）という理論的な用語です。

ただし、将来のある特定の時点を指定して「AGIが達成された」と言える方法はありません。

しかし、過去の経験から見ると、コンピュータが人間に勝るとき、私たちはAGIに近づいていると言えるでしょう。

今や、AIは創造性の面で人間を上回るように見えます。そして今、みんながAGIが近いと信じているようです。

しかし、これらのAIシステムの欠点を見つけるたびに、AGIは遠くなります。「幻覚、誤情報、バイアス」などの課題が、私たちが考えるべきAGIの道に立ちはだかります。

残念ながら、AIのこれらの欠点は根本的かつ不治のものであると指摘する人もいます。

しかし、非常に興味深いことに、何人かの人間がAIに対してそこまで悪くないことがわかっています。

広く報道されたレポートでは、AIが創造性のテストで人間を上回ったとされていますが、「有意な上回りは示されなかった」のです。AIは確かに同等の能力を持っていましたが、常に最高ではありませんでした。また、AlphaGoのケースも非常に興味深いです。アメリカの研究科学者インターンであるKellin Pelrineさんが、システムの弱点を見つけることでAlphaGoに勝利しました。

AIの多様性を感じることが、AGIへの道で進むべき方法だと思います。そして、近い将来にはAGIに近づくことができるかもしれません。

音声入力と出力、画像認識の統合、そして安全性への取り組みにより、ChatGPTは絶えず進化し、より多目的で信頼性のあるAIアシスタントになっています。周囲を分析して推論を行う能力は、人間の学習方法に非常に近いです。

これらの機能により、ハンズフリーでの相互作用や視覚的な問題の解決など、さまざまな可能性が広がります。

さらに、ChatGPTは近々、ChatGPTウィンドウ内でインターネットを検索する機能を備える予定です[4]。これらの機能は現在利用可能ではありませんが、近々全てのユーザーと開発者に提供される予定です。OpenAIによれば、ChatGPT PlusとEnterpriseのユーザーを優先に、機能を段階的に導入していく予定です。

ブラウザ機能は現在はPlusとEnterpriseのユーザーにのみ利用可能ですが、近々すべてのユーザーに提供される予定です。

もしも多様性が私たちが進むべき道であるなら、AGIは近いと言っても安全でしょう。

急速なイノベーションの世界では、情報に通じていることが重要です。私のニュースレター「Creative Block」に参加し、ノイズをカットしましょう: AI、テクノロジー、サイエンスについての信頼性のある知識を提供する週刊ニュースレターです。宣伝も絶望論もありません。厳密な分析、考えさせられるエッセイ、本当に重要なキュレーションされたニュースだけを提供します。

本当の進歩を見逃さないためにもアップデートをお見逃しなく。今すぐ購読して最新情報を受け取りましょう！ 🚀📚

Creative Block | Aditya Anil | Substack

creativeblock.substack.com

脚注:

「見て！AIが整備士の仕事を奪える」と人々が言う日を待っているだけです
こちらでご自身で確認してください
GPT-4のリリースは、GPT-4のオリジナルバージョンです。GPT-4Vは、倫理と価値観の大規模なデータセットを学習させたGPT-4の改良版です。GPT-4V + Refusal Systemは、有害な要求を検出して拒否する追加の保護層を備えたGPT-4Vです。
ただし、これは新しいことではありません。プラグインを使用するか、Bing AI Chatを使用することで以前からgpt4を使用できました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIChatGPTMultimodalOpenAIOpenai Chatgpt

Was this article helpful?

93 out of 132 found this helpful

「比喩的に言えば、ChatGPTは生きている」

ChatGPTはついにマルチモーダルになりました

I. Voice: ChatGPTが話すとき

II. Image: AIが見るとき

III. 安全性：ChatGPTが安全になる（試みる）場合

IV. AGIの夢はどこに向かっているのか？

Creative Block | Aditya Anil | Substack

脚注:

Was this article helpful?

「創発的AIのためのガードレール構築への責任あるアプローチ」

ニューラルネットワークの活性化関数

AIニュース

「Amazon SageMakerでのMLOpsによる堅牢な時系列予測」

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

『AnomalyGPTとは：産業異常を検出するための大規模ビジョン言語モデル（LVLM）に基づく新しいIADアプローチ』

「NVIDIA CUDA Quantumによる研究者の進歩が期待される」

AIが想像を絶する抗体を作成します：LabGeniusの医療工学への新しいアプローチ

モデルレジストリとAmazon SageMakerモデルカードを統合する

「比喩的に言えば、ChatGPTは生きている」

ChatGPTはついにマルチモーダルになりました

I. Voice: ChatGPTが話すとき

II. Image: AIが見るとき

III. 安全性：ChatGPTが安全になる（試みる）場合

IV. AGIの夢はどこに向かっているのか？

Creative Block | Aditya Anil | Substack

AI、テクノロジー、科学に関するあなたにとって重要な週刊ニュースレター。AdityaによるCreative Blockを読むにはクリックしてください…

脚注:

Was this article helpful?