Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

「Google AI、マルチモード学習のための革新的なMirasol3Bモデルを発表」

機械学習の広範な領域では、さまざまなモダリティ(音声、ビデオ、テキスト)に埋め込まれた複雑さを解読することが難しいとされています。時間を合わせたモダリティと非合わせたモダリティの複雑な同期、およびビデオや音声信号の圧倒的なデータ量は、研究者たちに革新的な解決策を模索させました。そこで、Googleの専門チームが作り出した巧妙な多モーダル自己回帰モデルであるMirasol3Bが登場します。このモデルは、異なるモダリティの課題に対処し、より長いビデオ入力の処理に優れています。

Mirasol3Bのイノベーションに入る前に、多モーダル機械学習の複雑さを理解することが重要です。既存の手法では、音声やビデオなどの時間を合わせたモダリティとテキストなどの非合わせたモダリティの同期に苦慮しています。この同期の課題は、ビデオや音声信号に存在する膨大なデータ量によってさらに複雑になり、圧縮が必要なことがしばしばあります。より長いビデオ入力をシームレスに処理することができる効果的なモデルへの緊急の必要性がますます明らかになっています。

Mirasol3Bは、これらの課題に対処するパラダイムシフトを象徴しています。従来のモデルとは異なり、Mirasol3Bは時間を合わせたモダリティ(音声とビデオ)のモデリングと、テキスト情報などの非合わせたモダリティの明確なコンポーネントを含んでいます。これにより、Mirasol3Bは新しい視点をもたらします。

Mirasol3Bの成功は、時間を合わせたモダリティと文脈モダリティの巧妙な調整にかかっています。ビデオ、音声、テキストはそれぞれ異なる特性を持っています。たとえば、ビデオは高いフレームレートを持つ空間時間的な視覚信号であり、音声は高い周波数を持つ一次元の時間信号です。これらのモダリティを結び付けるために、Mirasol3Bはクロスアテンションメカニズムを使用し、時間を合わせたコンポーネント間で情報の交換を容易にしています。これにより、モデルは正確な同期の必要性なしで、異なるモダリティ間の関係を包括的に理解することができます。

Mirasol3Bの革新的な魅力は、時間を合わせたモダリティへの自己回帰モデリングの応用にあります。ビデオ入力は、管理可能なフレーム数で構成される複数のチャンクに賢明に分割されます。コンバイナーという学習モジュールがこれらのチャンクを処理し、共有の音声とビデオの特徴表現を生成します。この自己回帰戦略により、モデルは個々のチャンクとそれらの時間的な関係を把握することができます。これは意味のある理解にとって重要な要素です。

コンバイナーは、Mirasol3Bの成功の中心であり、ビデオと音声の信号を効果的に調和させるために設計された学習モジュールです。このモジュールは、小さな数の出力特徴を選択することで、大量のデータの処理の課題に取り組んでいます。コンバイナーは、シンプルなトランスフォーマベースのアプローチから、差分可能なメモリユニットをサポートするトークン・チューリング・マシン(TTM)などのメモリコンバイナーまで、さまざまなスタイルで現れます。両方のスタイルが、モデルが広範なビデオと音声の入力を効率的に処理する能力に貢献しています。

Mirasol3Bのパフォーマンスは、印象的です。このモデルは、MSRVTT-QA、ActivityNet-QA、NeXT-QAなどのさまざまなベンチマークで、最先端の評価手法に常に勝る結果を示しています。80億のパラメータを持つFlamingoなどのはるかに大きなモデルと比較しても、約30億のパラメータを持つMirasol3Bは、優れた能力を示しています。特に、モデルはオープンエンドのテキスト生成設定で優れた性能を発揮し、汎化および正確な応答の生成能力を示しています。

結論として、Mirasol3Bはマルチモーダルな機械学習の課題に取り組むための大きな進歩を表しています。自己回帰モデリング、時間に整列したモダリティの戦略的な分割、そして効率的なコンバイナーを組み合わせた革新的なアプローチにより、この分野で新たな基準が確立されました。比較的小型のモデルでパフォーマンスを最適化する能力は、正確さを犠牲にすることなく、Robustなマルチモーダル理解を必要とする実世界のアプリケーションにおいてMirasol3Bを有望な解決策と位置づけています。私たちが世界の複雑さを理解できるAIモデルを求める探求が続く中、Mirasol3Bはマルチモーダルの領域において進歩の光として輝きます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

エヌビディアは、今日のSC23で、科学や産業の研究センターを新たなパフォーマンスとエネルギー効率のレベルに引き上げる次世...

人工知能

「ゲームからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高くなっていますロイターによると、株価は過去8ヶ月で3倍に増加しまし...

データサイエンス

「LangchainなしでPDFチャットボットを構築する方法」

はじめに Chatgptのリリース以来、AI領域では進歩のペースが減速する気配はありません。毎日新しいツールや技術が開発されて...

機械学習

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を...

AI研究

カールスルーエ工科大学(KIT)の研究者たちは、深層学習を用いた降水マッピングに取り組み、空間および時間の分解能向上に向けて進化させました

気候変動のため、特に激しい降水イベントがより頻繁に起こると予想されています。洪水や地滑りなどの多くの自然災害は、激し...

AIテクノロジー

ウェブサイトのためにChatGPTに適切なテクニカルテキストを書かせる方法

「長いテキストを書くように依頼しないでくださいできるだけ多くの詳細と仕様を提供し、適切な言語を使用し、AIディテクター...