これは本当のマルチモーダル学習ですか?-ImageBindについて説明します

「本物のマルチモーダル学習とは?- ImageBindについて解説します」

テキストへの画像変換や音声へのテキスト変換、それが昨年のマルチモーダルラーニングです!Meta AIのImageBind [1] です。これこそが本物のマルチモーダルラーニングです!

ImageBindは複数のモダリティを1つの共有埋め込み空間に結合します。これは、クロスモーダル検索を行うことができるということです。つまり、音声シーケンス(例えばパチパチ音を含む)を入力し、パチパチする火の画像を取得することができます。また、鳥の画像と波の音など、2つの異なるモダリティを組み合わせて、海の中の同じ鳥の画像を取得することもできます。それにしても、DALLE-2を音声を入力に使うようにアップグレードすることはできないのでしょうか?

アイデアと方法

ここで非常にクールなことは、ImageBindが音声とテキスト、またはテキストと深度、音声とIMU、深度と熱などに対して訓練されたことが一度もないということです。実際、必要なデータは任意のモダリティと画像のペアだけでした。だからこそ、ImageBindと名付けられました。彼らは各モダリティを画像またはビジョンの埋め込み空間に結び付けます。

アイデア自体は非常にシンプルです。私たちは、例えば画像と動画をエンコードすることができる事前トレーニング済みのビジョンエンコーダ(例:ViT)から始めます。この画像の埋め込みを使用して、固定された画像の埋め込みと一致するように、別のモデルを訓練することができます。

Illustration of training two separate models to predict similar embeddings for corresponding inputs of different modalities. Source: Adapted by the author from [1]

つまり、この画像とその埋め込みに対して、画像のキャプションに対して非常に似た埋め込みを生成するようにテキストエンコーダを訓練します。同じことが画像とその深度データにも適用されます。画像の埋め込みを持っているので、対応する画像の埋め込みに類似した埋め込みを生成するように新しい深度データエンコーダを訓練しています。同様に、画像とその熱データ、ビデオとその音声、ビデオと記録されたIMUデータにも適用されます。なお、IMUデータとは、加速度計とジャイロスコープによって記録された時系列データのことです。

Example of IMU data. Source: [1]

例えば、ここには調理中の人物のビデオがありますが、彼は加速度計とジャイロスコープを身につけていました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Google フォトのマジックエディター:写真を再構築するための新しいAI編集機能

Magic Editorは、AIを使用して写真を再構想するのを手助けする実験的な編集体験です今年後半には、選択されたPixel電話での早...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

AIニュース

『2つの方が1つより優れている:AIと自動化を組み合わせて強力な品質エンジニアリングプロセスを作成する方法』

この記事では、品質エンジニアリングプロセスを向上させるためにAIと自動化技術を組み込む方法について学びます

AIニュース

ChatGPTは自己を規制するための法律を作成する

コスタリカは、人工知能(AI)の規制において興味深い一歩を踏み出しました。法的な専門知識の源泉として予想外の存在であるC...

機械学習

ビジュアルキャプション:大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

Google Augmented Realityのリサーチサイエンティスト、Ruofei DuとシニアスタッフリサーチサイエンティストのAlex Olwalが投...