「ChatGPTがGPT-4V（Vision）とともに視覚を獲得することで、マルチモーダルAIが進化します」

「ChatGPTとGPT-4V（Vision）の視覚獲得により、マルチモーダルAIが進化する」

人工知能（AI）をより人間らしくする取り組みの一環として、OpenAIのGPTモデルは常に限界を押し続けてきました。GPT-4は今ではテキストと画像の両方のプロンプトを受け付けることができます。

生成型AIにおける多様性は、入力に基づいてテキスト、画像、または音声などのさまざまな出力を生成するモデルの能力を示します。これらのモデルは、特定のデータに基づいてトレーニングされ、類似の新しいデータを生成するための基本的なパターンを学び、AIアプリケーションを豊かにします。

マルチモーダルAIの最近の進展

この分野での最近の注目すべき進歩の1つは、DALL-E 3のChatGPTへの統合によって見られます。これは、OpenAIのテキストからイメージへの技術的なアップグレードであり、より滑らかな相互作用を可能にします。ChatGPTはDALL-E 3のために正確なプロンプトを作成し、ユーザーのアイデアを鮮やかなAI生成のアートに変えるのを助けます。したがって、ユーザーは直接DALL-E 3と対話することができますが、チャットGPTを組み合わせることで、AIアートの作成プロセスはユーザーフレンドリーになります。

こちらでDALL-E 3とそのChatGPTへの統合について詳しくご覧ください。このコラボレーションは、マルチモーダルAIの進歩を示すだけでなく、ユーザーにとってAIアートの作成が簡単になります。

openai.com dall-e-3

https://openai.com/dall-e-3

一方で、Googleのヘルスは今年6月にMed-PaLM Mを発表しました。これは多様なバイオメディカルデータを符号化し解釈する能力に優れたマルチモーダル生成モデルです。これは、マルチメドベンチというオープンソースのベンチマークを利用して、医療領域に対応するようにPaLM-Eという言語モデルを微調整することで実現されました。このベンチマークには、医療の質問応答や放射線報告書の生成など、7つのバイオメディカルデータタイプと14のタスクにわたる100万以上のサンプルが含まれています。

様々な産業は、革新的なマルチモーダルAIツールを採用して事業拡大を促進し、業務を効率化し、顧客エンゲージメントを向上させています。音声、映像、テキストのAI機能の進展が、マルチモーダルAIの成長を推進しています。

エンタープライズは、ビジネスモデルとプロセスを刷新し、データツールから新興のAIアプリケーションまで、生成型AIエコシステム全体で成長の機会を追い求めています。

GPT-4の3月のローンチ後、一部のユーザーは時間とともに応答品質の低下を観察しました。この問題は、有名な開発者やOpenAIのフォーラムでも指摘されてきました。最初はOpenAIによって無視されましたが、後の研究でこの問題が確認されました。それによると、3月から6月の間にGPT-4の精度が97.6％から2.4％に低下し、後続のモデル更新に伴う回答品質の低下が示されました。

chatgpt-ai

ChatGPT（青）と人工知能（赤）のGoogle検索トレンド

Open AIのChatGPTについての話題は再び戻ってきました。これには新しいビジョン機能GPT-4Vが搭載されており、ユーザーは自分が提供する画像をGPT-4が解析することができます。これは、ユーザーに開放された最新の機能です。

GPT-4のような大規模言語モデル（LLM）に画像分析を追加することは、AI研究と開発の大きな前進と見なされています。このようなマルチモーダルLLMは、新しいインターフェースを提供し、新しい種類のタスクを解決することで、ユーザーに新しい体験をもたらします。

GPT-4Vのトレーニングは2022年に完了し、2023年3月には早期アクセスが開始されました。GPT-4Vのビジュアル機能は、GPT-4の技術によって可能にされています。トレーニングプロセスは同様で、インターネットを含むさまざまなソースからのテキストと画像の大規模なデータセットを使用して、モデルがテキストの次の単語を予測するように訓練されました。

後に、より多くのデータを用いた強化学習手法である人間のフィードバックからの強化学習（RLHF）を用いて、人間が好む出力を生成するように微調整されました。

GPT-4ビジョンメカニズム

GPT-4の印象的なビジョン言語能力は素晴らしいですが、それには表面に留まる基礎的な手法があります。

この仮説を探るために、新たなビジョン言語モデルMiniGPT-4が導入され、高度なLLMであるVicunaを利用しています。このモデルは、視覚認識のための事前学習済みのコンポーネントを持つ視覚エンコーダを使用し、エンコードされた視覚的特徴をVicuna言語モデルに単一の投影層を介して整列させます。MiniGPT-4のアーキテクチャはシンプルで効果的であり、視覚と言語の特徴を整列させて視覚的な会話能力を向上させることに焦点を当てています。

MiniGPT-4

MiniGPT-4のアーキテクチャには、事前学習済みのViTとQ-Formerを持つ視覚エンコーダ、単一の線形投影層、そして高度なVicuna大規模言語モデルが含まれています。

ビジョン言語タスクにおける自己回帰言語モデルのトレンドも拡大し、言語と多分野の知識の共有を実現するクロスモーダル転送を生かしています。

MiniGPT-4は、事前学習済みのビジョンエンコーダからの視覚情報と高度なLLMを整列させることで、視覚と言語のドメインを橋渡ししています。このモデルは言語デコーダとしてVicunaを利用し、2段階のトレーニングアプローチを採用しています。まず、大規模な画像テキストペアのデータセットで視覚言語の知識を獲得するためにトレーニングされ、次に、より小さい高品質のデータセットで微調整され、生成の信頼性と使いやすさを向上させます。

MiniGPT-4で生成される言語の自然さと使いやすさを向上させるために、研究者は適切なビジョン言語の整列データセットの不足に対処するために、2段階の整列プロセスを開発しました。このために専門のデータセットを作成しました。

まず、モデルは入力画像の詳細な説明を生成し、Vicuna言語モデルの形式に沿った会話的なプロンプトを使用して詳細を向上させました。この段階では、より包括的な画像の説明を生成することが目的です。

初期の画像説明プロンプト:

###人間: <Img><ImageFeature></Img>この画像を詳細に説明してください。できるだけ多くの詳細を述べてください。すべてを見たことを言ってください。###アシスタント:

データの後処理では、生成された説明の不整合やエラーがChatGPTを使用して修正され、品質を確保するためにマニュアルで検証されました。

2段階目の微調整プロンプト:

###人間: <Img><ImageFeature></Img><Instruction>###アシスタント:

この探求は、GPT-4のような多モーダル生成AIのメカニズムを理解する窓を開き、視覚と言語のモダリティが一貫した豊かな出力を生成するためにどのように効果的に統合できるかについて明らかにしています。

GPT-4ビジョンの探求

ChatGPTを使用して画像の起源を特定する

GPT-4 Visionは、ChatGPTが画像を分析し、その地理的な起源を特定する能力を向上させます。この機能により、ユーザーのインタラクションはテキストだけでなく、テキストと画像の組み合わせに移行し、画像データを通じて異なる場所についての興味を持つ人々にとって便利なツールとなります。

Chatgpt-vision-GPT-4

ChatGPTにランドマークの画像がどこで撮られたか尋ねる

複雑な数学の概念

GPT-4 Visionは、グラフィカルまたは手書きの式を分析することで、複雑な数学的なアイデアに深入りする能力があります。この機能は、入り組んだ数学の問題を解決しようとする個人にとって有用なツールとなります。これにより、GPT-4 Visionは教育および学術分野での注目すべき支援となります。

Chatgpt-vision-GPT-4

ChatGPTに複雑な数学の概念を理解するように尋ねる

手書きの入力をLaTeXコードに変換する

GPT-4Vの素晴らしい能力の一つは、手書きの入力をLaTeXコードに変換できるということです。この機能は、手書きの数式や他の技術情報をデジタル形式に変換する必要がある研究者、学者、学生にとっては利点です。手書きからLaTeXへの変換は、文書のデジタル化の範囲を広げ、技術的な執筆プロセスを簡素化します。

GPT-4Vの手書き入力をLaTeXコードに変換する能力

表の詳細の抽出

GPT-4Vは、表から詳細を抽出し、関連する問い合わせに対応するスキルを披露し、データ分析において重要なアセットとなっています。ユーザーはGPT-4Vを利用して表を選び出し、主要な洞察を集め、データに基づく質問を解決することができます。これにより、データアナリストや他の専門家にとって強力なツールとなります。

GPT-4Vが表の詳細を解読し、関連するクエリに対応する様子

ビジュアルポイントの理解

GPT-4Vのユニークな能力であるビジュアルポイントの理解は、ユーザーとのインタラクションに新たな次元を加えます。ビジュアルのヒントを理解することで、GPT-4Vはより文脈を理解したクエリに応答することができます。

GPT-4Vがビジュアルポイントの理解能力を示している様子

描画を用いたシンプルなモックアップウェブサイトの作成

ツイートに触発されて、unite.aiのウェブサイトのためのモックアップを作成しました。

https://www.unite.ai/wp-content/uploads/2023/10/uthomepage.mp4

結果は初期のビジョンに完全には合致しませんでしたが、私が達成した結果はこちらです。

ChatGPT Visionによる出力のHTMLフロントエンド

GPT-4Vの制約と欠点

Open AIチームはGPT-4Vを分析するために質的および量的な評価を行いました。質的評価には内部テストや外部の専門家によるレビューが含まれ、量的評価にはモデルの拒否率やさまざまなシナリオでの正確さなどが測定されました。これには有害なコンテンツの識別、人口統計情報の認識、プライバシーの問題、地理情報、サイバーセキュリティ、および多文物刑務所の認識などが含まれます。

それでもモデルは完璧ではありません。

論文では、GPT-4Vの制約として、間違った推論や画像中の欠落したテキストや文字などが挙げられています。モデルは事実を幻想したり作り上げたりすることがあります。特に、画像中の危険物質の識別には適していません。しばしば誤識別します。

医療画像では、GPT-4Vは一貫した回答を提供せず、標準的な手法に関する知識が不足しているため、誤診断の可能性があります。

医療目的における信頼性のない性能。

医療目的における信頼性のない性能 (出典)

さらに、特定の憎悪の象徴のニュアンスを把握することができず、視覚的な入力に基づいて不適切なコンテンツを生成する可能性があります。 OpenAIは、特に医療や感受性のある文脈では、GPT-4Vを批判的な解釈に使用しないことを勧告しています。

まとめ

Fast Stable Diffusion XLを使用して作成

Fast Stable Diffusion XLを使用して作成https://huggingface.co/spaces/google/sdxl

GPT-4 Vision（GPT-4V）の登場により、さまざまなクールな可能性と新しい障害が生じています。導入する前に、特に人の写真に関するリスクを検討し、低減するために多くの努力が行われました。GPT-4Vが医学や科学などの難しい領域で大きな約束を示しているのは印象的です。

さて、テーブル上にはいくつかの大きな問題があります。例えば、これらのモデルは写真から有名な人物を識別できるべきですか？写真から人物の性別、人種、または感情を推測するべきですか？また、視覚障害のある個人をサポートするための特別な調整が必要でしょうか？これらの問題は、プライバシーや公平性、AIが私たちの生活にどのように適合すべきかについての難問を提起し、誰もが意見を持つべきものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

ChatGPTDALL-E 3multimodal AIPrompt Engineering

Was this article helpful?

93 out of 132 found this helpful

「ChatGPTがGPT-4V（Vision）とともに視覚を獲得することで、マルチモーダルAIが進化します」

マルチモーダルAIの最近の進展

GPT-4ビジョンメカニズム

GPT-4ビジョンの探求

ChatGPTを使用して画像の起源を特定する

複雑な数学の概念

手書きの入力をLaTeXコードに変換する

表の詳細の抽出

ビジュアルポイントの理解

描画を用いたシンプルなモックアップウェブサイトの作成

GPT-4Vの制約と欠点

まとめ

Was this article helpful?

「データサイエンティストのための高収入の副業7選」

「なぜ自宅でPythonを使って10億桁の円周率を計算することがほぼ不可能なのか」

機械学習

焼け落ちた炎：スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

「機械学習におけるデータの重要性：AI革命の推進力」

『周期的な時間特徴のエンコード方法』

「プログラマーの生産性を10倍にするための5つの無料のAIツール」

クリエイティブ性を高めるためのChatGPTプロンプト

「BentoML入門：統合AIアプリケーションフレームワーク」