Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

「Google AI、マルチモード学習のための革新的なMirasol3Bモデルを発表」

機械学習の広範な領域では、さまざまなモダリティ(音声、ビデオ、テキスト)に埋め込まれた複雑さを解読することが難しいとされています。時間を合わせたモダリティと非合わせたモダリティの複雑な同期、およびビデオや音声信号の圧倒的なデータ量は、研究者たちに革新的な解決策を模索させました。そこで、Googleの専門チームが作り出した巧妙な多モーダル自己回帰モデルであるMirasol3Bが登場します。このモデルは、異なるモダリティの課題に対処し、より長いビデオ入力の処理に優れています。

Mirasol3Bのイノベーションに入る前に、多モーダル機械学習の複雑さを理解することが重要です。既存の手法では、音声やビデオなどの時間を合わせたモダリティとテキストなどの非合わせたモダリティの同期に苦慮しています。この同期の課題は、ビデオや音声信号に存在する膨大なデータ量によってさらに複雑になり、圧縮が必要なことがしばしばあります。より長いビデオ入力をシームレスに処理することができる効果的なモデルへの緊急の必要性がますます明らかになっています。

Mirasol3Bは、これらの課題に対処するパラダイムシフトを象徴しています。従来のモデルとは異なり、Mirasol3Bは時間を合わせたモダリティ(音声とビデオ)のモデリングと、テキスト情報などの非合わせたモダリティの明確なコンポーネントを含んでいます。これにより、Mirasol3Bは新しい視点をもたらします。

Mirasol3Bの成功は、時間を合わせたモダリティと文脈モダリティの巧妙な調整にかかっています。ビデオ、音声、テキストはそれぞれ異なる特性を持っています。たとえば、ビデオは高いフレームレートを持つ空間時間的な視覚信号であり、音声は高い周波数を持つ一次元の時間信号です。これらのモダリティを結び付けるために、Mirasol3Bはクロスアテンションメカニズムを使用し、時間を合わせたコンポーネント間で情報の交換を容易にしています。これにより、モデルは正確な同期の必要性なしで、異なるモダリティ間の関係を包括的に理解することができます。

Mirasol3Bの革新的な魅力は、時間を合わせたモダリティへの自己回帰モデリングの応用にあります。ビデオ入力は、管理可能なフレーム数で構成される複数のチャンクに賢明に分割されます。コンバイナーという学習モジュールがこれらのチャンクを処理し、共有の音声とビデオの特徴表現を生成します。この自己回帰戦略により、モデルは個々のチャンクとそれらの時間的な関係を把握することができます。これは意味のある理解にとって重要な要素です。

コンバイナーは、Mirasol3Bの成功の中心であり、ビデオと音声の信号を効果的に調和させるために設計された学習モジュールです。このモジュールは、小さな数の出力特徴を選択することで、大量のデータの処理の課題に取り組んでいます。コンバイナーは、シンプルなトランスフォーマベースのアプローチから、差分可能なメモリユニットをサポートするトークン・チューリング・マシン(TTM)などのメモリコンバイナーまで、さまざまなスタイルで現れます。両方のスタイルが、モデルが広範なビデオと音声の入力を効率的に処理する能力に貢献しています。

Mirasol3Bのパフォーマンスは、印象的です。このモデルは、MSRVTT-QA、ActivityNet-QA、NeXT-QAなどのさまざまなベンチマークで、最先端の評価手法に常に勝る結果を示しています。80億のパラメータを持つFlamingoなどのはるかに大きなモデルと比較しても、約30億のパラメータを持つMirasol3Bは、優れた能力を示しています。特に、モデルはオープンエンドのテキスト生成設定で優れた性能を発揮し、汎化および正確な応答の生成能力を示しています。

結論として、Mirasol3Bはマルチモーダルな機械学習の課題に取り組むための大きな進歩を表しています。自己回帰モデリング、時間に整列したモダリティの戦略的な分割、そして効率的なコンバイナーを組み合わせた革新的なアプローチにより、この分野で新たな基準が確立されました。比較的小型のモデルでパフォーマンスを最適化する能力は、正確さを犠牲にすることなく、Robustなマルチモーダル理解を必要とする実世界のアプリケーションにおいてMirasol3Bを有望な解決策と位置づけています。私たちが世界の複雑さを理解できるAIモデルを求める探求が続く中、Mirasol3Bはマルチモーダルの領域において進歩の光として輝きます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...

人工知能

「ChatGPTを金融業務に活用する10の方法」

イントロダクション AIの登場により、ビジュアルの作成からプレゼンテーションの形成まで、産業全体に変革をもたらしています...

データサイエンス

レコメンダーシステムにおけるPrecision@NとRecall@Nの解説

Accuracy Metrics(正解率指標)は、機械学習の全体的なパフォーマンスを評価するための有用な指標であり、データセット内の...

機械学習

「FalconAI、LangChain、およびChainlitを使用してチャットボットを作成する」

イントロダクション ジェネレーティブAI、特にジェネレーティブ大規模言語モデルは、その誕生以来世界を席巻しています。これ...

機械学習

AIHelperBotとの出会い 秒単位でSQLクエリを構築する人工知能(AI)ベースのSQLエキスパート

現代のデジタルテクノロジーの魅力的な世界では、人工知能(AI)チャットボットが人々のオンライン体験を向上させます。人工...

機械学習

「メタに立ち向かい、開発者を強力にサポートするために、アリババがAIモデルをオープンソース化」

重要な進展として、中国の電子商取引巨人であるアリババが、強力な人工知能モデルをサードパーティの開発者に公開することを...