このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

This AI research introduces LISA, a large-scale language instruction segmentation assistant that inherits the language generation capabilities of multimodal large language models (LLM).

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。

推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant(LISA)というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。

LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。

推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。

研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg(ベンチマーク)で印象的なゼロショット能力を示すことを発見しました。

研究者は、LISAが20%以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union(IoU)の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。

彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。

論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit40k+のFacebookコミュニティDiscordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。

この記事は、MarkTechPostに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「生成型AIアプリケーションのためのプレイブック」

この記事では、Generative AIアプリケーションを実装する際の主要な考慮事項と、ビジョンを行動に変えるために人間の関与が果...

機械学習

「このAIニュースレターはあなたが必要とするもの全てです #69」

Googleは、MicrosoftやAdobeといった企業に続き、彼らが提供するAIサービスの利用者を知的財産権侵害に関する訴訟から保護す...

機械学習

「前方予測デコーディング」:LLM推論を加速するための並列デコーディングアルゴリズム

大規模な言語モデル(LLM)であるGPT-4やLLaMAなどは現代のアプリケーションを再構築し続けているが、推論は遅く最適化が困難...

機械学習

「トップAIコンテンツ生成ツール(2023年)」

人工知能(AI)のおかげで、文章の作成方法は大きく変わりました。多くの人々がAIコンテンツジェネレーターを使用しています...

機械学習

新しい - Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポ...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...