「Inside LlaVA GPT-4Vのオープンソースの最初の代替案」
「Inside LlaVA GPT-4V:オープンソースの最初の代替案」
モデルは複数の視覚的な指示タスクでGPT-4よりも優れています。
私は最近、AIに特化した教育ニュースレターを開始しました。このニュースレターはすでに16万人以上の購読者がいます。TheSequenceは、5分で読めるMLに特化したニュースレターで、ハイプやニュースなどは排除されています。目標は、機械学習のプロジェクト、研究論文、概念について最新情報を提供することです。以下のリンクからぜひ購読してみてください:
TheSequence | Jesus Rodriguez | Substack
機械学習、人工知能、データの進展について最新情報を提供する最良の情報源
thesequence.substack.com
数週間前、OpenAIはGPT-4で新しい画像および音声処理機能を公開しました。AIラボはGPT-4 Vision(GPT-4V)として知られる新しいモデルを発表し、ユーザーがGPT-4に画像と音声の入力を指示できるようにしました。GPT-4Vは、マルチモーダルな基盤モデルの領域で興味深い開発です。GPT-4Vの発表から数日後、私たちは早速最初のオープンソースの代替手段を手に入れました。ウィスコンシン大学マディソン校とマイクロソフトリサーチの研究者たちが、Large Language and Vision Assistant(LLaVA)と呼ばれるLLaMAベースのマルチモーダルLLMを紹介しました。
LLaVAは、ビジョンエンコーダとLLM(Large Language Model)をシームレスに結びつけ、包括的な視覚的および言語的理解を提供するために生まれた驚異的な統合モデルです。LLaVAとの初期実験では、これまで見たことのない画像と指示でも、マルチモーダルGPT-4のような振る舞いを時折示すなど、その驚異的な能力が明らかになりました。
- 「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」
- 「思考伝搬:大規模言語モデルを用いた複雑な推論の類推的手法」
- このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています
この取り組みで行われた画期的な進歩の1つは、ビジュアルインストラクションチューニングの探求です。これは、指示チューニングのコンセプトをマルチモーダルAIの領域に拡張するための先駆的な取り組みであり、汎用的なビジュアルアシスタントの開発の基盤を築いています。LLaVAの発表に付随する論文は、次のような領域において重要な貢献をしています:
· マルチモーダルな指示従順データ:この取り組みで直面する重要な課題の1つは、ビジョン言語の指示従順データの不足です。これに対処するために、画像テキストのペアを必要な指示従順形式に変換するための新しいデータリフォーメーションアプローチとパイプラインが開発されました。この手法はChatGPT/GPT-4の力を借りています。
· ラージマルチモーダルモデル:LLaVAは、CLIPからのオープンセットビジュアルエンコーダとLLaMAと呼ばれる言語デコーダを結びつけることにより実現されました。これらのコンポーネントは、プロジェクト中に生成されたビジョン言語データを使用して協調して微調整されました。生成されたデータをLMMの指示チューニングに活用することの有効性が、広範な実証研究によって確認され、汎用的な指示従順ビジュアルエージェントの開発における実用的な洞察が提供されました。特に、GPT-4では、LLaVAはScience QAマルチモーダル推論データセットにおいて最先端のパフォーマンスを実現しました。
· オープンソースイニシアティブ:協力と知識共有の精神に基づき、LLaVAチームは多くの有用な資産を公開します。
LLaVAの最大の貢献は、GPT-4を活用して指示チューニングされたデータセットを生成する方法です。
GPT-4を使用して視覚的な指示データを生成する
多様な画像テキストのペアをCCからLAIONまで網羅する、マルチモーダルデータの領域では、公開リソースの大幅な流入が目撃されています。しかし、マルチモーダルな指示に従うデータの領域に関しては、利用可能なプールは限られています。この希少性は、主に人間のクラウドソーシングに頼る場合、労力がかかり、多少曖昧なプロセスに関係しています。最近のGPTモデルのテキスト注釈タスクでの非凡な成功からインスピレーションを受けて、提案が浮かび上がりました。すでに存在する画像ペアデータを活用して、マルチモーダルな指示に従うデータの収集にGPT-4/ChatGPTの力を利用しましょう。
イメージXvとそれに対応するキャプションXcを考慮してみましょう。これは、AIアシスタントにイメージの内容を説明するための一連の質問Xqを作成するために自然に適したものです。GPT-4を起動し、付録内の表8に示されているような質問の一覧をキュレーションします。したがって、イメージテキストのペアをその指示に従うペアに拡張するための明確なアプローチが形成されます:人間がXq Xv<STOP>nnを提案し、アシスタントがXc<STOP>nnで応答します。費用対効果に優れていますが、この明快な拡張方法は、指示および応答の両方において多様性と深さがやや制限されています。
この制限に対処するために、アプローチは、言語に焦点を当てたGPT-4またはChatGPTを強力な教師として利用する方向に変わります。これらのモデルはテキストを入力として受け入れ、視覚的なコンテンツを組み込んだ指示に従うデータを作成するために介入します。手法は明確です:テキストのみのGPTでイメージをそのビジュアル特徴に変換するためには、象徴的な表現が必要です。これらの表現は次の2つのカテゴリに分けられます:
· キャプション:これらは、ビジュアルシーンに対するさまざまな視点を提供するテキストの説明として機能します。
· バウンディングボックス:これらの便利なボックスは、シーン内のオブジェクトをピンポイントで特定して区切るためのものです。各ボックスには、オブジェクトの概念だけでなく、空間的な位置もエンコードされています。
この革新的なアプローチにより、マルチモーダルな指示に従うデータの拡張の試みが、ビジュアルコンテンツとテキスト指示の間の多様性と深さの新しい次元を開くことが期待されています。GPT-4がマルチモーダルAIの景色を革新し続けるのをお楽しみに。
LLaVAアーキテクチャ
LLaVAは、事前学習済みのCLIP ViT-L/14ビジュアルエンコーダと、直接的な射影行列を介して強力な大規模言語モデルであるVicunaをシームレスに接続します。その顕著な機能に向けた旅は、2段階の指示調整プロセスで展開されます:
ステージ1:特徴の整列のための事前トレーニング
この初期段階では、射影行列だけの更新に焦点が当てられています。この更新は、CC3Mデータの一部に基づいて行われ、さらなる進展のための土台を築きます。
ステージ2:エンドツーエンドの微調整
ここでは、射影行列とLLMの両方が更新され、2つの異なる使用シナリオに対応します:
· ビジュアルチャット: LLaVaは、私たちが念入りに作成したマルチモーダルな指示に従うデータを使用して、微調整を行います。これは、ユーザーの日常的なニーズに対応するように設計されています。
· 科学QA: LLaVaは、科学の複雑なドメインに合わせたマルチモーダルな推論データセットを使用して、微調整の旅に乗り出します。
機械生成された指示に従ってデータを調整することで、大規模な言語モデル(LLM)を調整する概念は、言語の領域におけるゼロショット能力を確実に向上させました。しかし、マルチモーダルAIの領域での応用は比較的未開拓の領域です。
初期結果
LLaVAの初期評価は、GPT-4と比較した場合、信じられないほどの結果を示しています。
LLaVAの初期の章は非常に注目に値します。これらの実験は、LLaVAが未知の画像と指示に直面した場合に、マルチモーダルGPT-4の動作を時折真似る印象的なチャット能力を示しています。合成マルチモーダル指示に従うデータセットで、GPT-4に比べて優れた85.1%のスコアを誇ります。さらに、LLaVAとGPT-4はScience QAでFine-tuningした後、前例のない最先端の精度を達成し、驚異的な92.53%に達します。
LLaVAは、マルチモーダルLLMの世界で最もエキサイティングな展開の一つであり、オープンソースの基本モデル運動における重要な一歩です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「GROOTに会おう:オブジェクト中心の3D先行条件と適応ポリシー汎化を備えたビジョンベースの操作のための堅牢な模倣学習フレームワーク」
- 「AutoMixを使用した計算コストの最適化 クラウドからの大規模言語モデルの活用に向けたAI戦略的アプローチ」
- 「総合的な指標を通じて深層生成モデルのエンジニアリング設計評価を向上させる」
- ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム
- 「3D-GPT(3D-指示駆動型モデリングのための人工知能フレームワーク)に会ってください 大規模な言語モデル(LLM)を利用した指示駆動型3Dモデリングのための人工知能フレームワーク」
- 「ファストテキストを使用したシンプルなテキスト分類」となります
- 「16/10から22/10までの週のトップ重要なコンピュータビジョン論文」