これは本当のマルチモーダル学習ですか?-ImageBindについて説明します

「本物のマルチモーダル学習とは?- ImageBindについて解説します」

テキストへの画像変換や音声へのテキスト変換、それが昨年のマルチモーダルラーニングです!Meta AIのImageBind [1] です。これこそが本物のマルチモーダルラーニングです!

ImageBindは複数のモダリティを1つの共有埋め込み空間に結合します。これは、クロスモーダル検索を行うことができるということです。つまり、音声シーケンス(例えばパチパチ音を含む)を入力し、パチパチする火の画像を取得することができます。また、鳥の画像と波の音など、2つの異なるモダリティを組み合わせて、海の中の同じ鳥の画像を取得することもできます。それにしても、DALLE-2を音声を入力に使うようにアップグレードすることはできないのでしょうか?

アイデアと方法

ここで非常にクールなことは、ImageBindが音声とテキスト、またはテキストと深度、音声とIMU、深度と熱などに対して訓練されたことが一度もないということです。実際、必要なデータは任意のモダリティと画像のペアだけでした。だからこそ、ImageBindと名付けられました。彼らは各モダリティを画像またはビジョンの埋め込み空間に結び付けます。

アイデア自体は非常にシンプルです。私たちは、例えば画像と動画をエンコードすることができる事前トレーニング済みのビジョンエンコーダ(例:ViT)から始めます。この画像の埋め込みを使用して、固定された画像の埋め込みと一致するように、別のモデルを訓練することができます。

Illustration of training two separate models to predict similar embeddings for corresponding inputs of different modalities. Source: Adapted by the author from [1]

つまり、この画像とその埋め込みに対して、画像のキャプションに対して非常に似た埋め込みを生成するようにテキストエンコーダを訓練します。同じことが画像とその深度データにも適用されます。画像の埋め込みを持っているので、対応する画像の埋め込みに類似した埋め込みを生成するように新しい深度データエンコーダを訓練しています。同様に、画像とその熱データ、ビデオとその音声、ビデオと記録されたIMUデータにも適用されます。なお、IMUデータとは、加速度計とジャイロスコープによって記録された時系列データのことです。

Example of IMU data. Source: [1]

例えば、ここには調理中の人物のビデオがありますが、彼は加速度計とジャイロスコープを身につけていました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

API管理を使用してAIパワードJavaアプリを管理する

OpenAIのChatGPT APIをSpring Bootアプリケーションに統合し、オープンソースのAPIゲートウェイであるApache APISIXを使用し...

機械学習

「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」

画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDif...

人工知能

ワンダーダイナミックスの使い方:自分自身を3Dキャラクターに変身させる方法

ボタンをクリックするだけで、自分自身を3Dアニメーションキャラクターに変身させることができます

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

AIニュース

「明日のニュースを、今日に!」ニュースGPTが新しいAI技術の「ニュース予報」を紹介

NewsGPT.aiは再び革新の限界を押し広げました。世界初の24時間365日のAI生成ニュースチャンネルの成功的な立ち上げに続いて、...

機械学習

このAIの論文は、ディフュージョンモデルを向上させるためのDiffEncを発表します

拡散モデルは、画像、音声、ビデオ、音楽などの多様な生成タスクで優れた性能を発揮するパワフルなモデルです。優れたビジュ...