「プリズマーに会いましょう:専門家のアンサンブルを持つオープンソースのビジョン-言語モデル」

Let's meet Prizma An open-source vision-language model with an ensemble of experts.

最近の多くのビジョン言語モデルは、非常に注目すべき多様な生成能力を示しています。しかし、通常、それらは膨大なモデルと膨大なデータセットのトレーニングを必要とします。研究者たちは、データとパラメータの効率的なビジョン言語モデルであるPrismerを紹介し、スケーラブルな代替手法としています。Prismerは、公開されている事前トレーニング済みのドメインエキスパートからほとんどのネットワークの重みを受け継ぎ、トレーニング中にそれらを凍結することで、わずかなコンポーネントのトレーニングのみを必要とします。

大規模な事前トレーニングモデルの汎化能力は、さまざまなタスクにおいて非常に優れています。しかし、これらの機能には高い価格が付いており、トレーニングデータと計算リソースが大量に必要です。数千億のトレーニング可能なパラメータを持つモデルは、言語領域では一般的であり、yottaFLOPスケールの計算予算が必要です。

ビジュアル言語学習に関連する問題は、より困難に解決することが求められます。この分野は言語処理のスーパーセットでありながら、ビジュアルおよびマルチモーダルな思考の専門知識も必要とします。Prismerは、予測されるマルチモーダル信号を使用したデータ効率の良いビジョン言語モデルであり、さまざまな事前トレーニング済みエキスパートを使用します。ビジュアルクエスチョンアンサリングや画像キャプションなど、ビジョン言語推論のタスクの例として扱うことができます。Prismerは、プリズムを例にして、一般的な推論タスクをいくつかのより小さな、より管理しやすいチャンクに分割します。

研究者たちは、視覚的に条件付けられた自己回帰テキスト生成モデルを開発しました。Prismerの最も重要な設計特徴の2つは、(i)ビジョンのみのモデルをWebスケールの知識のためのコアネットワークバックボーンとして使用し、(ii)モダリティに特化したビジョンエキスパートが、深度などの低レベルのビジョン信号からインスタンスやセマンティックラベルなどの高レベルのビジョン信号まで、対応するネットワークの出力から直接補助的な知識をエンコードすることです。研究者たちは、探索的なビジョン言語推論タスクにおいて、さまざまな事前トレーニング済みドメインエキスパートをより良く活用するために、視覚的に条件付けられた自己回帰テキスト生成モデルを開発しました。

Prismerは、公開されている画像/代替テキストデータの13Mの例でのみトレーニングされていますが、画像キャプション、画像分類、ビジュアルクエスチョンアンサリングなどのタスクにおいて、強力なマルチモーダル推論性能を示し、多くの最先端のビジョン言語モデルと競合しています。研究者たちは、Prismerの学習習慣を徹底的に調査し、いくつかの良い特徴を見つけました。

モデル設計:

Prismerモデルは、エンコーダ-デコーダトランスフォーマーのバージョンで表示され、トレーニングプロセスを高速化するために、既にトレーニング済みの専門家の大きなプールを活用しています。このシステムは、ビジョンエンコーダと自己回帰言語デコーダで構成されています。ビジョンエンコーダは、RGBとマルチモーダルラベル(凍結された事前トレーニング済みのエキスパートから予測される深度、表面法線、セグメンテーションラベル)のシーケンスを入力として受け取り、RGBとマルチモーダルの特徴のシーケンスを出力します。このクロスアテンショントレーニングの結果、言語デコーダはテキストトークンの文字列を生成するように条件付けられます。

利点:

  • Prismerモデルにはいくつかの利点がありますが、最も注目すべきは、トレーニング中に非常に効率的にデータを使用することです。Prismerは、Webスケールの知識を利用するために事前トレーニングされたビジョンのみと言語のみのバックボーンモデルの上に構築されており、他の最先端のビジョン言語モデルと同等の性能を得るために必要なGPU時間を大幅に削減します。これらの事前トレーニングされたパラメータを使用して、利用可能な大量のウェブスケールの知識を利用することができます。
  • 研究者たちは、ビジョンエンコーダのためのマルチモーダル信号入力も開発しました。作成されたマルチモーダルの補助的な知識は、入力画像の意味と情報をより良く捉えることができます。Prismerのアーキテクチャは、わずかなトレーニング可能なパラメータでトレーニング済みエキスパートの使用を最大限に活用するように最適化されています。

研究者は、Prismerに2種類の事前トレーニング済みエキスパートを含めました:

  1. バックボーンの専門家 テキストと画像を意味のあるトークンのシーケンスに変換するための事前トレーニング済みモデルを、それぞれ「ビジョンのみ」と「言語のみ」と呼びます。
  2. ディスコースモデルのモデレータ タスクをさまざまな方法でラベル付けするために使用されるデータに応じて、ディスコースモデルのモデレータはタスクにラベル付けを行います。

特性

  • 知識豊富な人々が多ければ多いほど、結果は良くなります。Prismerのモダリティの専門家の数が増えるにつれて、パフォーマンスが向上します。
  • より熟練した専門家、より優れた結果 研究者は、予測される深度ラベルの一部を一様分布からランダムノイズで置き換えて、破損した深度エキスパートを作成し、エキスパートの品質がPrismerのパフォーマンスに与える影響を評価しました。
  • 無益な意見に対する耐性 研究結果は、ノイズ予測エキスパートが組み込まれた場合でも、Prismerのパフォーマンスが安定していることをさらに示しています。

弊社のPaperGithubをご覧ください。この研究における全てのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素晴らしいAIプロジェクトなどを共有している26k+人のML SubRedditDiscordチャンネルメールニュースレターにもぜひご参加ください。

Tensorleapの説明可能性プラットフォームでディープラーニングの秘密を解き放つ

この投稿は、MarkTechPostによるものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「PDF、txt、そしてウェブページとして、あなたのドキュメントと話しましょう」

LLMsを使用してPDF、TXT、さらにはウェブページなどのドキュメントに質問をすることができるウェブと知能を作成するための完...

機械学習

MITの新しいAI研究は、深層ニューラルネットワークが私たちとは異なる方法で世界を見ていることを示しています

人間の感覚システムの複雑な機能を模倣することを目指して、神経科学と人工知能の研究者は、計算モデルと人間の知覚の間の不...

機械学習

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパタ...

データサイエンス

ChatGPTのコードインタプリター:知っておくべきすべてのこと

OpenAIは、興奮をもって発表を行っており、最新の発表はChatGPT Plusのユーザーを喜ばせることでしょう。数ヶ月の期待を経て...

人工知能

『デイリースタンドアップで時間を無駄にしています』

「デイリースタンドアップは、中規模の製品エンジニアリングチームに年間6桁の金額をかけさせるので、必ず効果を上げる必要が...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...