メタAIは、IMAGEBINDを紹介します:明示的な監督の必要性なく、一度に6つのモダリティからデータを結合できる最初のオープンソースAIプロジェクトです

MetaAI introduces IMAGEBIND, the first open-source AI project that can combine data from six modalities at once without the need for explicit supervision.

人間はわずかなインスタンスにさらされた後で複雑なアイデアを理解することができます。ほとんどの場合、書かれた説明に基づいて動物を特定し、視覚に基づいて未知の自動車のエンジンの音を推測することができます。これは、単一の画像がそれ以外の感覚的な経験を「結びつける」ことができるためです。ペアデータに基づく標準的なマルチモーダル学習は、モダリティの数が増えるにつれて制約があります。

テキスト、音声などをイメージに合わせることは、最近のいくつかの手法の焦点となっています。これらの戦略は最大でも2つの感覚を使用します。ただし、最終的な埋め込みは、トレーニングモダリティとそれらに対応するペアのみを表すことができます。そのため、ビデオ-オーディオの埋め込みを直接的にイメージ-テキストの活動に転送したり、その逆を行うことはできません。すべてのモダリティが一緒に存在する巨大なマルチモーダルデータが欠けていることは、実際の共有埋め込みを学習するための重要な障壁です。

新しいメタリサーチは、複数の形式の画像ペアデータを使用して単一の共有表現空間を学習するためのIMAGEBINDというシステムを紹介しています。すべてのモダリティが同時に発生するデータセットを使用する必要はありません。代わりに、この研究では画像の結合特性を利用し、各モダリティの埋め込みを画像の埋め込みに合わせることで、すべてのモダリティ間での新たなアライメントが生じることを示しています。

ウェブ上の大量の画像と関連するテキストは、画像-テキストモデルのトレーニングに大きな影響を与えています。ImageBindは、画像が他のモダリティと頻繁に共起するという事実を利用し、テキストと画像をオンラインデータでリンクしたり、モーションと動画をIMUセンサーを搭載したウェアラブルカメラから取得したビデオデータでリンクするなど、それらを接続する橋として機能することができます。

モダリティ間の特徴学習のターゲットは、ウェブデータから学習された視覚的表現です。これは、ImageBindが画像と頻繁に共起する他のモダリティもアライメントできることを意味します。ヒートや深さなどのモダリティのアライメントは、画像と高い相関関係を持つため、より簡単です。

ImageBindは、単にペアの画像を使用するだけで、すべての6つのモダリティを統合することができます。このモデルは、さまざまなモダリティ同士が「話し合い」、直接の観察を必要とせずに接続を見つけ出すことで、情報のより包括的な解釈を提供することができます。たとえば、ImageBindは、音とテキストをリンクさせることができますが、それらを一緒に見ることはできません。これにより、他のモデルは、広範な時間とエネルギーを必要とするトレーニングなしで新しいモダリティを「理解」することができます。ImageBindの堅牢なスケーリング動作により、以前は追加のモダリティを使用できなかった多くのAIモデルの代わりまたは追加として、このモデルを使用することが可能になります。

大規模な画像-テキストのペアデータと自己教師ありデータを組み合わせることで、音声、深度、熱、慣性計測装置(IMU)の読み取りなど、4つの新しいモダリティにわたる特徴学習の強力なエマージェントゼロショット分類および検索パフォーマンスが示されています。チームは、基礎となる画像表現の強化がこれらのエマージェントフィーチャーを向上させることを示しています。

調査結果は、IMAGEBINDのエマージェントゼロショット分類が、ESC、Clotho、AudioCapsなどのオーディオ分類および検索ベンチマークで専門家モデルと同等または優れていることを示しています。フューショット評価ベンチマークでは、IMAGEBINDの表現も専門家指導モデルよりも優れたパフォーマンスを発揮します。最後に、IMAGEBINDの共有埋め込みの多様な構成タスクでの汎用性を示すために、クロスモーダル検索、埋め込みの算術組み合わせ、画像への音声入力からの画像生成などを行います。

これらの埋め込みは特定のアプリケーションに対してトレーニングされていないため、ドメイン固有のモデルの効率には及びません。チームは、汎用的な埋め込みを特定の目的に合わせる方法についてさらに学ぶことが有益だと考えています。たとえば、検出などの構造化予測タスクに対して。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more