これは本当のマルチモーダル学習ですか?-ImageBindについて説明します

「本物のマルチモーダル学習とは?- ImageBindについて解説します」

テキストへの画像変換や音声へのテキスト変換、それが昨年のマルチモーダルラーニングです!Meta AIのImageBind [1] です。これこそが本物のマルチモーダルラーニングです!

ImageBindは複数のモダリティを1つの共有埋め込み空間に結合します。これは、クロスモーダル検索を行うことができるということです。つまり、音声シーケンス(例えばパチパチ音を含む)を入力し、パチパチする火の画像を取得することができます。また、鳥の画像と波の音など、2つの異なるモダリティを組み合わせて、海の中の同じ鳥の画像を取得することもできます。それにしても、DALLE-2を音声を入力に使うようにアップグレードすることはできないのでしょうか?

アイデアと方法

ここで非常にクールなことは、ImageBindが音声とテキスト、またはテキストと深度、音声とIMU、深度と熱などに対して訓練されたことが一度もないということです。実際、必要なデータは任意のモダリティと画像のペアだけでした。だからこそ、ImageBindと名付けられました。彼らは各モダリティを画像またはビジョンの埋め込み空間に結び付けます。

アイデア自体は非常にシンプルです。私たちは、例えば画像と動画をエンコードすることができる事前トレーニング済みのビジョンエンコーダ(例:ViT)から始めます。この画像の埋め込みを使用して、固定された画像の埋め込みと一致するように、別のモデルを訓練することができます。

Illustration of training two separate models to predict similar embeddings for corresponding inputs of different modalities. Source: Adapted by the author from [1]

つまり、この画像とその埋め込みに対して、画像のキャプションに対して非常に似た埋め込みを生成するようにテキストエンコーダを訓練します。同じことが画像とその深度データにも適用されます。画像の埋め込みを持っているので、対応する画像の埋め込みに類似した埋め込みを生成するように新しい深度データエンコーダを訓練しています。同様に、画像とその熱データ、ビデオとその音声、ビデオと記録されたIMUデータにも適用されます。なお、IMUデータとは、加速度計とジャイロスコープによって記録された時系列データのことです。

Example of IMU data. Source: [1]

例えば、ここには調理中の人物のビデオがありますが、彼は加速度計とジャイロスコープを身につけていました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ゲート付き再帰型ユニット(GRU)の詳細な解説:RNNの数学的背後理論の理解」

この記事では、ゲート付き再帰ユニット(GRU)の動作について説明しますGRUは、長期短期記憶(LSTM)の事前知識があれば簡単...

機械学習

AIのダークサイドを明らかにする:プロンプトハッキングがあなたのAIシステムを妨害する方法

LLMsによるハッキングを防止し、データを保護するために、AIシステムを保護してくださいこの新興脅威に対するリスク、影響、...

データサイエンス

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか

パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから...

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

機械学習

「SDXL 1.0の登場」

機械学習の急速に進化する世界では、新しいモデルやテクノロジーがほぼ毎日私たちのフィードに押し寄せるため、最新情報を把...

AIニュース

「GoogleがニュースライターAI 'Genesis'をリリース」

メディアの景色を変えることが確実な技術の突破口として、Googleは「Genesis」と呼ばれるAIによるニュース記事生成ツールの開...