Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

「Google AI、マルチモード学習のための革新的なMirasol3Bモデルを発表」

機械学習の広範な領域では、さまざまなモダリティ(音声、ビデオ、テキスト)に埋め込まれた複雑さを解読することが難しいとされています。時間を合わせたモダリティと非合わせたモダリティの複雑な同期、およびビデオや音声信号の圧倒的なデータ量は、研究者たちに革新的な解決策を模索させました。そこで、Googleの専門チームが作り出した巧妙な多モーダル自己回帰モデルであるMirasol3Bが登場します。このモデルは、異なるモダリティの課題に対処し、より長いビデオ入力の処理に優れています。

Mirasol3Bのイノベーションに入る前に、多モーダル機械学習の複雑さを理解することが重要です。既存の手法では、音声やビデオなどの時間を合わせたモダリティとテキストなどの非合わせたモダリティの同期に苦慮しています。この同期の課題は、ビデオや音声信号に存在する膨大なデータ量によってさらに複雑になり、圧縮が必要なことがしばしばあります。より長いビデオ入力をシームレスに処理することができる効果的なモデルへの緊急の必要性がますます明らかになっています。

Mirasol3Bは、これらの課題に対処するパラダイムシフトを象徴しています。従来のモデルとは異なり、Mirasol3Bは時間を合わせたモダリティ(音声とビデオ)のモデリングと、テキスト情報などの非合わせたモダリティの明確なコンポーネントを含んでいます。これにより、Mirasol3Bは新しい視点をもたらします。

Mirasol3Bの成功は、時間を合わせたモダリティと文脈モダリティの巧妙な調整にかかっています。ビデオ、音声、テキストはそれぞれ異なる特性を持っています。たとえば、ビデオは高いフレームレートを持つ空間時間的な視覚信号であり、音声は高い周波数を持つ一次元の時間信号です。これらのモダリティを結び付けるために、Mirasol3Bはクロスアテンションメカニズムを使用し、時間を合わせたコンポーネント間で情報の交換を容易にしています。これにより、モデルは正確な同期の必要性なしで、異なるモダリティ間の関係を包括的に理解することができます。

Mirasol3Bの革新的な魅力は、時間を合わせたモダリティへの自己回帰モデリングの応用にあります。ビデオ入力は、管理可能なフレーム数で構成される複数のチャンクに賢明に分割されます。コンバイナーという学習モジュールがこれらのチャンクを処理し、共有の音声とビデオの特徴表現を生成します。この自己回帰戦略により、モデルは個々のチャンクとそれらの時間的な関係を把握することができます。これは意味のある理解にとって重要な要素です。

コンバイナーは、Mirasol3Bの成功の中心であり、ビデオと音声の信号を効果的に調和させるために設計された学習モジュールです。このモジュールは、小さな数の出力特徴を選択することで、大量のデータの処理の課題に取り組んでいます。コンバイナーは、シンプルなトランスフォーマベースのアプローチから、差分可能なメモリユニットをサポートするトークン・チューリング・マシン(TTM)などのメモリコンバイナーまで、さまざまなスタイルで現れます。両方のスタイルが、モデルが広範なビデオと音声の入力を効率的に処理する能力に貢献しています。

Mirasol3Bのパフォーマンスは、印象的です。このモデルは、MSRVTT-QA、ActivityNet-QA、NeXT-QAなどのさまざまなベンチマークで、最先端の評価手法に常に勝る結果を示しています。80億のパラメータを持つFlamingoなどのはるかに大きなモデルと比較しても、約30億のパラメータを持つMirasol3Bは、優れた能力を示しています。特に、モデルはオープンエンドのテキスト生成設定で優れた性能を発揮し、汎化および正確な応答の生成能力を示しています。

結論として、Mirasol3Bはマルチモーダルな機械学習の課題に取り組むための大きな進歩を表しています。自己回帰モデリング、時間に整列したモダリティの戦略的な分割、そして効率的なコンバイナーを組み合わせた革新的なアプローチにより、この分野で新たな基準が確立されました。比較的小型のモデルでパフォーマンスを最適化する能力は、正確さを犠牲にすることなく、Robustなマルチモーダル理解を必要とする実世界のアプリケーションにおいてMirasol3Bを有望な解決策と位置づけています。私たちが世界の複雑さを理解できるAIモデルを求める探求が続く中、Mirasol3Bはマルチモーダルの領域において進歩の光として輝きます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

サイバーセキュリティにおける生成AIの約束と危険性

セキュリティにおける生成型AIの利点と欠点を探求してくださいヒント:セキュリティにおける自動化とスケーリングの必要性を...

AI研究

Google フォトのマジックエディター:写真を再構築するための新しいAI編集機能

Magic Editorは、AIを使用して写真を再構想するのを手助けする実験的な編集体験です今年後半には、選択されたPixel電話での早...

機械学習

「コルーチンの実行のマスタリング:UnityにおけるYield、Flow、そして実用例」となります

この包括的なガイドを通じて、Unityでの高度なコルーチンの使用方法を探求しましょうyieldingのテクニック、ゲームループの統...

機械学習

NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力

ジェネンテック(ロシュグループの一員)は、 生成AI を使って新しい治療法を発見し、患者に効果的に治療を提供することを先...

AIニュース

「ウェブパブリッシャーコントロールの最新情報」

「私たちはGoogle-Extendedを発表しますこれは、ウェブパブリッシャーが自分たちのサイトがBardとVertex AIの生成APIを改善す...

機械学習

「メタのMusicGenを使用してColabで音楽を生成する」

「ColabでMusicGenをセットアップする方法を学びましょうこの先進のテキストから音楽へ変換するモデルは、人工知能アルゴリズ...