これは本当のマルチモーダル学習ですか?-ImageBindについて説明します

「本物のマルチモーダル学習とは?- ImageBindについて解説します」

テキストへの画像変換や音声へのテキスト変換、それが昨年のマルチモーダルラーニングです!Meta AIのImageBind [1] です。これこそが本物のマルチモーダルラーニングです!

ImageBindは複数のモダリティを1つの共有埋め込み空間に結合します。これは、クロスモーダル検索を行うことができるということです。つまり、音声シーケンス(例えばパチパチ音を含む)を入力し、パチパチする火の画像を取得することができます。また、鳥の画像と波の音など、2つの異なるモダリティを組み合わせて、海の中の同じ鳥の画像を取得することもできます。それにしても、DALLE-2を音声を入力に使うようにアップグレードすることはできないのでしょうか?

アイデアと方法

ここで非常にクールなことは、ImageBindが音声とテキスト、またはテキストと深度、音声とIMU、深度と熱などに対して訓練されたことが一度もないということです。実際、必要なデータは任意のモダリティと画像のペアだけでした。だからこそ、ImageBindと名付けられました。彼らは各モダリティを画像またはビジョンの埋め込み空間に結び付けます。

アイデア自体は非常にシンプルです。私たちは、例えば画像と動画をエンコードすることができる事前トレーニング済みのビジョンエンコーダ(例:ViT)から始めます。この画像の埋め込みを使用して、固定された画像の埋め込みと一致するように、別のモデルを訓練することができます。

Illustration of training two separate models to predict similar embeddings for corresponding inputs of different modalities. Source: Adapted by the author from [1]

つまり、この画像とその埋め込みに対して、画像のキャプションに対して非常に似た埋め込みを生成するようにテキストエンコーダを訓練します。同じことが画像とその深度データにも適用されます。画像の埋め込みを持っているので、対応する画像の埋め込みに類似した埋め込みを生成するように新しい深度データエンコーダを訓練しています。同様に、画像とその熱データ、ビデオとその音声、ビデオと記録されたIMUデータにも適用されます。なお、IMUデータとは、加速度計とジャイロスコープによって記録された時系列データのことです。

Example of IMU data. Source: [1]

例えば、ここには調理中の人物のビデオがありますが、彼は加速度計とジャイロスコープを身につけていました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

機械学習

「LLM Fine-Tuningの理解:大規模言語モデルを独自の要件に合わせる方法」

「Llama 2のような大規模言語モデル(LLM)の微調整技術の最新の進展を探索してくださいLow-Rank Adaptation(LoRA)やQuanti...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

AIニュース

「類推的な & ステップバック型プロンプティング:Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバック...

機械学習

最終的なDXAネーション

人工知能(AI)と機械学習(ML)は、医療を革新し、私たちを精密医療の時代に導いていますAI健康モデルを開発する動機は、死...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...