このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

『大規模なマルチモーダルモデルをさらに進化させる、多機能なマルチモーダルアシスタント 〝LLaVA-Plus〟の紹介』

“`html

多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル(LLMs)の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。

マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます:

(i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル(LMMs)が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。

(ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な(サブ)タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、(新しい)ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。

図1:LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。

清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus(大規模な言語とビジョンアシスタント)を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。

例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。

“`

さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです:

• 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。

• 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。

• ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

データサイエンス

「伝統的な機械学習はまだ重要ですか?」

伝統的な機械学習が生成モダルAIの時代でも不可欠である理由を探求し、その強み、弱点、およびさまざまな産業における重要な...

機械学習

「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」

「AIを活用したプラットフォームがデジタルの分断を乗り越え、開発者に力を与え、企業がより迅速にデータからビジネス価値を...

人工知能

認知AI:人間のように考えるAIへの道

目的は、関連する予測を行い、自動的な意思決定をすることができるようにすることですつまり、新しい文脈情報をアクションに...

機械学習

「オープンソースモデルと商用AI/ML APIの違い」

「最近数ヶ月間、おそらく多くの議論に遭遇したことでしょうそれは、大規模言語モデル(LLM)に対してオープンソースのAPIを...

AIニュース

「比喩的に言えば、ChatGPTは生きている」

ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを...

機械学習

RayはNVIDIA AIとの協業により、開発者が製品向けのLLMを構築、調整、トレーニング、スケールアップするのを支援します

大規模言語モデルの開発は、NVIDIAとAnyscaleのコラボレーションにより、超音速の速さに達する予定です。 Anyscaleは、急速に...