「第一の汎用ビジュアルと言語のAI LLaVA」

AI LLaVA The first general-purpose visual and language AI

LLaVA:GPT-4によるビジュアルと言語AIのギャップを埋める

オリジナルはlouisbouchard.aiに掲載されており、私のブログでも2日前に読んでください!

動画を見る!

GPT-4は強力ですが、それを利用して完全に構築されたAIがいくつか存在することを知っていますか? はい、GPT-4は非常に優れているため、他のAIモデルのトレーニングに十分なデータを生成するために使用できます。そして、それ以上のモデルを生成することができます! Liuらは、GPT-4を使用して言語ビジョンモデルであるLLaVAを作成しました。これは、視覚と言語に基づく指示を理解し、追従する最初の汎用モデルです。つまり、テキストと画像をほぼ完璧に理解できるモデルです。したがって、任意の画像に関して何でも質問できます。GPT-4はまだ画像を見ることができないが、テキスト処理には非常に優れているため、私たちは画像のキャプションを送信し、Q&Aのための質問、画像のより詳細な説明、さらには画像キャプションに関する推論的な質問と回答など、さまざまなタイプの出力を生成するようにお願いすることができます。これが著者が行ったことです。彼らはGPT-4モデルに役割と個性を与え、各画像の初期キャプションに基づいてさまざまなタイプのデータを生成するように求めました。

<img alt="「指示に従うデータの例。上部ブロックにはGPTを促すために使用されるキャプションやボックスなどのコンテキストが表示され、下部ブロックには3つのタイプの応答が表示されます。視覚画像はGPTを促すために使用されていないことに注意してください。ここでは参照のために表示しています。」画像とキャプションは論文から引用されています。

以下は、LLaVAの場合にGPT-4に与えられた指示の例です。これにより、言語モデルが画像をより深く理解できるようにするために、画像を簡潔に説明するように要求し、徹底的な説明や詳細な分析に至るまで進めます。

<img alt="簡潔な画像説明のための指示リスト。画像は論文から引用されています。

これらのユーザー生成のプロンプトとGPT-4が生成する回答は、さまざまな質問や回答、画像の説明で満たされた良質なデータセットを作成し、画像とテキストを処理できるマルチモーダルAIをトレーニングするために使用されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AnthropicがClaude 2を発表:コーディングを革新する次世代AIチャットプログラム」

人工知能スタートアップのAnthropicは、テックジャイアントのGoogleによるバックアップを受けて、人気のあるチャットプログラ...

AI研究

「AIと脳インプラントにより、麻痺した男性の運動と感覚が回復する」

アメリカの医師たちは、画期的な医療技術を用いて、四肢麻痺の男性に希望をもたらすため、人工知能(AI)と脳インプラントの...

機械学習

高度な言語モデルの世界における倫理とプライバシーの探求

はじめに 現代の急速に進化する技術的な景観において、大規模言語モデル(LLM)は、産業を再構築し、人間とコンピュータの相...

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...

人工知能

ChatGPT Vislaプラグインを使用してビデオを作成する方法

たった一つのプロンプトで、Visla ChatGPTプラグインはわずか数秒でスクリプトとストック画像を使用したビデオを作成します