このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

This AI research introduces LISA, a large-scale language instruction segmentation assistant that inherits the language generation capabilities of multimodal large language models (LLM).

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。

推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant(LISA)というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。

LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。

推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。

研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg(ベンチマーク)で印象的なゼロショット能力を示すことを発見しました。

研究者は、LISAが20%以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union(IoU)の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。

彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。

論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit40k+のFacebookコミュニティDiscordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。

この記事は、MarkTechPostに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ミシガン大学の研究者は、AIの心理理論において新領域を開拓し、分類法と厳密な評価プロトコルを明らかにしました

ミシガン大学の研究者チームは、大規模言語モデル(LLM)のマインド理論(ToM)能力を評価するための新しい基準と評価プロト...

データサイエンス

レコメンドシステムの評価指標 — 概要

最近、レコメンデーションシステムのプロジェクトを実験している最中、様々な評価指標を使用することがありましたそのため、...

データサイエンス

なぜデータは「新しい石油」ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、クライブ・ハムビーによって2006年に造られ、それ以来広く引用されてきましたしか...

データサイエンス

NLP、NN、時系列:Google Trendsのデータを使用して石油価格を予測することは可能ですか?

最初にWord2Vecを使用し、次にGoogleトレンドからGoogle検索の頻度をスクレイピングし、その後、時系列(フーリエ分解を経て...

人工知能

パーソナライズされたAIの簡単な作成方法:GPTの適応に向けたノーコードガイド

OpenAIは、カスタムChatGPTを作成するためのコード不要のアプローチで個人のAIカスタマイズを革新しています

機械学習

クラウドウォッチの高度なメトリクス、ダッシュボード、アラートを使用してAWSのコストを最適化する

この記事では、Amazon CloudWatchを活用した高度なダッシュボードを使用して、AWSのコストを効率的に管理および分析する方法...