AIモデルの知覚を測定する
測定するAIモデルの知覚
リアルワールドのビデオ、音声、テキストデータに基づくマルチモーダルシステムの評価のための新しいベンチマーク
チューリングテストからImageNetまで、ベンチマークは人工知能(AI)を形成する上で重要な役割を果たしてきました。ベンチマークは研究目標を定義し、研究者がその目標に向けた進歩を測定するために役立ちます。過去10年間の驚異的なブレークスルー、例えばコンピュータビジョンのAlexNetやタンパク質の折りたたみのAlphaFoldは、ベンチマークデータセットを使用して緊密に関連しており、研究者がモデルの設計やトレーニングの選択肢をランク付けし、モデルの改善に取り組むことができました。人工一般知能(AGI)の構築を目指している今日、AIモデルの能力を拡張するための堅牢で効果的なベンチマークの開発も、モデル自体の開発と同じくらい重要です。
知覚-感覚を通じて世界を体験するプロセス-は知能の重要な部分です。そして、人間レベルの知覚的な世界理解を持つエージェントを構築することは、ロボット工学、自動運転車、個人アシスタント、医療画像など、ますます重要になっています。そこで今日は、Perception Testを紹介します。これは、モデルの知覚能力を評価するために実世界のビデオを使用したマルチモーダルなベンチマークです。
知覚ベンチマークの開発
現在、Kinetics(ビデオアクション認識用)、Audioset(オーディオイベント分類用)、MOT(オブジェクト追跡用)、VQA(画像質問応答用)など、多くの知覚関連のベンチマークがAI研究全体で使用されています。これらのベンチマークは、AIモデルのアーキテクチャやトレーニング方法の構築と開発において驚異的な進歩をもたらしましたが、各ベンチマークは知覚の制約された側面にのみ焦点を当てています。例えば、画像のベンチマークは時間的な側面を除外し、ビジュアルな質問応答は高レベルの意味的なシーン理解に焦点を当てています。オブジェクト追跡タスクは一般的に個々のオブジェクトの外観(色やテクスチャなど)を捉えます。そして、ほとんどのベンチマークはオーディオとビジュアルのモダリティの両方でタスクを定義していません。
Perceiver、Flamingo、BEiT-3などのマルチモーダルモデルは、より一般的な知覚モデルを目指しています。ただし、これらの評価は複数の特殊なデータセットに基づいていましたが、専用のベンチマークは存在しませんでした。このプロセスは遅く、高価であり、メモリなどの一般的な知覚能力の不完全なカバレッジを提供するため、研究者が方法を比較するのが困難でした。
これらの問題の多くに対処するために、意図的に設計されたリアルワールドの活動のビデオデータセットを作成しました。このデータセットは、以下の6つの異なるタスクに基づいてラベル付けされています:
- オブジェクト追跡: ビデオの初めにオブジェクトの周りにボックスが表示され、モデルはビデオ全体で完全なトラックを返さなければなりません(遮蔽を通しても)。
- ポイント追跡: ビデオの初めにポイントが選択され、モデルはビデオ全体でポイントを追跡する必要があります(遮蔽を通しても)。
- 時間的アクションのローカリゼーション: モデルはあらかじめ定義された一連のアクションを時間的にローカリゼーションし、分類する必要があります。
- 時間的サウンドのローカリゼーション: モデルはあらかじめ定義された一連の音を時間的にローカリゼーションし、分類する必要があります。
- 多肢選択式ビデオ質問応答: ビデオに関するテキストの質問で、各質問には3つの選択肢があり、それらから回答を選択する必要があります。
- グラウンデッドビデオ質問応答: ビデオに関するテキストの質問で、モデルは1つ以上のオブジェクトトラックを返す必要があります。
我々は、発達心理学での子供の知覚評価やCATERやCLEVRERなどの合成データセットからインスピレーションを得て、37のビデオスクリプトを設計しました。それぞれのバリエーションはバランスの取れたデータセットを確保するために、少なくとも12人のクラウドソーシング参加者によって撮影されました(CharadesやSomething-Somethingの以前の研究と同様)。合計11,609ビデオで、平均23秒の長さです。
これらのビデオは、シンプルなゲームや日常の活動を示しており、次のスキルを必要とするタスクを定義することができます:
- 意味論の知識: タスクの完了、オブジェクト、アクション、音の認識などをテストします。
- 物理学の理解: 衝突、運動、遮蔽、空間関係など。
- 時間的推論や記憶: イベントの時間的な順序、時間にわたるカウント、シーンの変化の検出など。
- 抽象的な能力: 形状の一致、同じ/異なる概念、パターンの検出など。
クラウドソーシング参加者は、ビデオに対して空間的および時間的な注釈(オブジェクトの境界ボックストラック、ポイントトラック、アクションセグメント、音セグメント)を付けました。私たちの研究チームは、多肢選択式とグラウンデッドビデオ質問応答のために、スクリプトタイプごとに質問を設計し、テストされるスキルの多様性を確保しました。例えば、反事実的な推論能力や特定の状況に対する説明を提供する能力を探る質問などです。対応する回答は再びクラウドソーシング参加者によって提供されました。
知覚テストを使ったマルチモーダルシステムの評価
モデルは外部のデータセットとタスクで事前にトレーニングされたものとします。知覚テストには、モデル作成者がオプションで使用できる小規模なファインチューニングセット(20%)が含まれており、これを使用してモデルへのタスクの性質を伝えることができます。残りのデータ(80%)は公開のバリデーションセットと評価サーバーを介してのみ評価できる保留のテストセットからなります。
ここでは評価のセットアップのダイアグラムを示します。入力はビデオとオーディオのシーケンスとタスクの仕様です。タスクは、ビジュアルな質問に対する高レベルのテキスト形式またはオブジェクト追跡タスクのバウンディングボックスの座標など、低レベルの入力であることができます。
評価結果は、いくつかの次元で詳細に説明され、6つの計算タスクにわたって能力が測定されます。ビジュアルな質問応答タスクでは、質問の種類とビデオで表示される状況の種類、および質問に答えるために必要な推論の種類のマッピングも提供され、さらに詳細な分析に使用できます(詳細は論文をご覧ください)。理想的なモデルは、全てのレーダープロットと全ての次元でスコアを最大化することでしょう。これはモデルのスキルの詳細な評価であり、改善の余地を絞り込むことができます。
ベンチマークの開発時には、参加者とビデオで表示されるシーンの多様性を確保することが重要な考慮事項でした。そのために、異なる国、民族、性別の参加者を選び、各タイプのビデオスクリプト内で多様な表現を持つようにしました。
知覚テストの詳細を学ぶ
知覚テストベンチマークはこちらで公開されており、詳細は当社の論文でご覧いただけます。また、近日中にリーダーボードとチャレンジサーバーも提供されます。
2022年10月23日には、私たちは欧州コンピュータビジョンカンファレンス(ECCV 2022)で一般的な知覚モデルに関するワークショップを開催します。ここでは、アプローチや他の主要な専門家と共に一般的な知覚モデルの設計と評価について議論します。
知覚テストがさらなる研究やガイドの一助となることを願っています。今後は、マルチモーダル研究コミュニティと協力し、ベンチマークに追加の注釈、タスク、メトリック、さらには新しい言語を導入することを目指しています。
ご興味がある方は、[email protected] までご連絡ください!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- AlphaCodeとの競技プログラミング
- AIに人間の価値観をどのように組み込むことができるのでしょうか?
- DeepMindの最新研究(ICLR 2023)
- あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています
- このAI研究は、大規模言語モデル(LLM)における合成的な人格特性を説明しています
- HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化
- MITの科学者たちは、生物学の研究のためのAIモデルを生成できるシステムを構築しました