このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

This AI research introduces LISA, a large-scale language instruction segmentation assistant that inherits the language generation capabilities of multimodal large language models (LLM).

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。

推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant(LISA)というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。

LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。

推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。

研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg(ベンチマーク)で印象的なゼロショット能力を示すことを発見しました。

研究者は、LISAが20%以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union(IoU)の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。

彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。

論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit40k+のFacebookコミュニティDiscordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。

この記事は、MarkTechPostに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データセットの凝縮の潜在能力を解き放つ:SRe^2LがImageNet-1Kで記録的な精度を達成

近年、データの圧縮と蒸留手法に注目が集まり、人工知能の研究に革新をもたらしています。これらの手法は、大規模なデータセ...

AI研究

メタAI研究者がGenBenchを導入:自然言語処理の汎化を進める革命的なフレームワーク

モデルの一般化能力は、自然言語処理(NLP)の持続的な成功にとって重要です。重要な要素として一般的に受け入れられているも...

AI研究

トヨタのAIにより、電気自動車の設計がより迅速になりました

トヨタ研究所(TRI)は、車両設計の世界で発表を行いました。彼らは、画期的な生成型人工知能(AI)技術を発表し、電気自動車...

機械学習

CipherChatをご紹介します:安全なアライメントの一般化を非自然言語、具体的には暗号に対して体系的に検証するためのAIフレームワーク

I had trouble accessing your link so I’m going to try to continue without it. 人工知能(AI)システムは、大規模...

機械学習

大きな言語モデルの謎を解き明かす:初心者のためのロードマップ

今日の高速化されたデジタル世界では、自然言語処理と言語理解の役割がますます中心的な存在となっています。この変革の波を...

機械学習

「ターシャーに会ってください:GPT4のようなマルチモーダルLLMとのウェブインタラクションを可能にするオープンソースのPythonライブラリ」

AIの成長とそれによる私たちの生活への影響はますます大きくなっており、AIをより便利で使いやすくするための研究が行われて...