単一のビジュアル言語モデルで複数のタスクに取り組む

'単一のビジュアル言語モデルで複数のタスクに取り組む' can be translated as 'Tackle multiple tasks with a single visual language model.'

知能の一つの鍵となる要素は、短い指示が与えられた場合に新しいタスクを素早く学習する能力です。例えば、本の中の動物の写真を数枚見ただけで、子供は実際の動物園で本物の動物を認識することができます。しかし、通常の視覚モデルが新しいタスクを学習するためには、そのタスクに特化した数万の例をトレーニングする必要があります。例えば、画像内の動物を数えて識別することを目的とする場合、「３匹のシマウマ」といった具体的な情報を持つ画像を収集し、各画像に数量と種類を注釈付けする必要があります。このプロセスは非効率で、高価で、リソースを多く必要とし、大量の注釈付きデータを必要とし、新しいタスクに対して毎回新しいモデルをトレーニングする必要があります。DeepMindの知能解決のミッションの一環として、限られたタスク固有の情報のみを与えられた場合に、代替モデルがこのプロセスをより簡単で効率的にすることができるかどうかを探求してきました。

本日、私たちは論文のプレプリントにおいて、Flamingoという単一の視覚言語モデル（VLM）を紹介し、幅広いオープンエンドのマルチモーダルタスクにおいて新たな最先端を打ち立てました。これは、Flamingoがわずかなタスク固有の例（「少数のショット」）だけで難しい問題に取り組むことができ、追加のトレーニングは必要ありません。Flamingoのシンプルなインターフェースがこれを可能にし、入力として画像、動画、テキストが交互に入力され、関連する言語が出力されます。

大規模な言語モデル（LLM）の振る舞いに似ており、テキストのプロンプトでタスクの例を処理することで、Flamingoの視覚とテキストのインターフェースは、マルチモーダルなタスクの解決に向けてモデルを導くことができます。Flamingoのプロンプトで構成された視覚的な入力の数例と予想されるテキストの応答を与えると、モデルに新しい画像や動画に関する質問をすることができ、その後、回答を生成することができます。

図1. 動物の写真の2つの例と、それらの名前と発見場所に関するコメントのテキストが与えられた場合、Flamingoは新しい画像を入力として受け取り、関連する説明を出力することができます。「これはフラミンゴです。彼らはカリブ海に生息しています。」

私たちが研究した16のタスクにおいて、Flamingoはタスクごとに4つの例というわずかな数の例でも、以前の少数ショット学習手法よりも優れた結果を出しました。いくつかの場合では、同じFlamingoモデルがタスクごとに個別に微調整され最適化された手法を凌駕し、多数のタスク固有のデータを使用しています。これにより、専門家でない人々も素早く簡単に正確な視覚言語モデルを新しいタスクに使用することができます。

図2. 左: Flamingoの16の異なるマルチモーダルタスクにおける少数ショットのパフォーマンスとタスク固有の最先端のパフォーマンス。右: 16のベンチマークのうち3つの予想される入力と出力の例。

実際には、Flamingoは大規模な言語モデルと強力な視覚表現を結合し、それぞれ個別に事前トレーニングされ凍結された状態で、その間に新しい設計要素を追加することでトレーニングされます。そして、機械学習の目的で注釈付けられたデータを使用せずに、ウェブからの補完的な大規模なマルチモーダルデータの混合物でトレーニングされます。この方法に従って、私たちは最近導入した計算最適な70Bパラメータの言語モデルであるChinchillaから始め、最終的なFlamingoモデルである80BパラメータのVLMをトレーニングします。このトレーニングが完了すると、Flamingoは追加のタスク固有のチューニングなしで、簡単な少数ショット学習を介してビジョンタスクに直接適応することができます。

私たちはまた、現在のベンチマークを超えたモデルの質的な能力もテストしました。このプロセスの一環として、性別や肌の色に関連する画像にキャプションを付ける際のモデルのパフォーマンスを比較し、モデルが生成したキャプションをGoogleのPerspective APIを介して評価しました。初期の結果は良好ですが、マルチモーダルシステムの倫理的なリスクを評価するためのさらなる研究が重要であり、これらの問題を慎重に評価し考慮することを人々に促します。実世界にこのようなシステムを展開する前に。

マルチモーダルな能力は、視覚的な課題に日常的に取り組む視覚障害者を支援したり、ウェブ上の憎悪的なコンテンツの識別を改善するなど、重要なAIアプリケーションにおいて不可欠です。Flamingoを使用することで、これらの例や他のタスクに効率的に適応することが可能になります。興味深いことに、このモデルはマルチモーダルな対話能力も持っており、ここで見ることができます。

図3 – Flamingoは、オープンAIのDALL·E 2によって生成された「スープモンスター」の画像を議論し（左）、有名なストループテストをパスして識別することができる多様な対話を提供します（右）。Flamingoは、画像とビデオの理解タスクに適用できる効果的かつ効率的な汎用モデルの一族です。Flamingoのようなモデルは、実用的な方法で社会に利益をもたらす可能性が非常に高く、柔軟性と機能を向上させ続けることで、安全に展開できるようにしています。Flamingoの能力は、学習された視覚言語モデルとの豊かな相互作用に向けた道を開拓し、解釈性の向上やエキサイティングな新しいアプリケーションの可能性を提供します。例えば、日常生活で人々を助ける視覚的なアシスタントなどです。私たちは、これまでの結果に大いに喜んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

research

Was this article helpful?

93 out of 132 found this helpful

単一のビジュアル言語モデルで複数のタスクに取り組む

Was this article helpful?

オフラインでのアクティブなポリシー選択

ベースとブラスへの情熱が、より良いツールの構築に役立つとき

AI研究

製造でのトピックモデリング

データセットシフトのフレームワークを整理する

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

「GiskardはHuggingFaceにGiskard Botをリリースします：HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

「音のシンフォニーを解読する：音楽工学のためのオーディオ信号処理」

NVIDIA Studio LineupにRTX搭載のMicrosoft Surface Laptop Studio 2が追加されました