これは本当のマルチモーダル学習ですか?-ImageBindについて説明します
「本物のマルチモーダル学習とは?- ImageBindについて解説します」
テキストへの画像変換や音声へのテキスト変換、それが昨年のマルチモーダルラーニングです!Meta AIのImageBind [1] です。これこそが本物のマルチモーダルラーニングです!
ImageBindは複数のモダリティを1つの共有埋め込み空間に結合します。これは、クロスモーダル検索を行うことができるということです。つまり、音声シーケンス(例えばパチパチ音を含む)を入力し、パチパチする火の画像を取得することができます。また、鳥の画像と波の音など、2つの異なるモダリティを組み合わせて、海の中の同じ鳥の画像を取得することもできます。それにしても、DALLE-2を音声を入力に使うようにアップグレードすることはできないのでしょうか?
アイデアと方法
ここで非常にクールなことは、ImageBindが音声とテキスト、またはテキストと深度、音声とIMU、深度と熱などに対して訓練されたことが一度もないということです。実際、必要なデータは任意のモダリティと画像のペアだけでした。だからこそ、ImageBindと名付けられました。彼らは各モダリティを画像またはビジョンの埋め込み空間に結び付けます。
- Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します
- 深層学習のマスタリング:非線形性をピースワイズな推定による近似するアート パート3
- コンピュータビジョンの戦場:チャンピオンを選ぶ
アイデア自体は非常にシンプルです。私たちは、例えば画像と動画をエンコードすることができる事前トレーニング済みのビジョンエンコーダ(例:ViT)から始めます。この画像の埋め込みを使用して、固定された画像の埋め込みと一致するように、別のモデルを訓練することができます。
つまり、この画像とその埋め込みに対して、画像のキャプションに対して非常に似た埋め込みを生成するようにテキストエンコーダを訓練します。同じことが画像とその深度データにも適用されます。画像の埋め込みを持っているので、対応する画像の埋め込みに類似した埋め込みを生成するように新しい深度データエンコーダを訓練しています。同様に、画像とその熱データ、ビデオとその音声、ビデオと記録されたIMUデータにも適用されます。なお、IMUデータとは、加速度計とジャイロスコープによって記録された時系列データのことです。
例えば、ここには調理中の人物のビデオがありますが、彼は加速度計とジャイロスコープを身につけていました…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます
- 「ロンドン帝国大学チーム、少ないデモンストレーションで新たな現実世界のタスクをマスターするための人工知能の方法を開発」
- 「’Acoustic Touch’テクノロジーが音を通して視覚を提供する方法」
- 「機械学習の探求」
- 「Scikit-LLMを使用したゼロショットテキスト分類の経験」
- 「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」
- 「フリーノイズ」にご挨拶:複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法