このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

このNYUとGoogleの論文は、シーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it.

非常に大きなモデルが、単一のモダリティで大量の非監督コーパスでトレーニングされることで、驚くべき結果を達成できることがますます明らかになってきています。これは、音声ドメインでは、単一のモデルが驚くほど広範な音響タスクに適応できることが示され、テキストドメインでは、言語モデルが例外的なゼロショットの能力を獲得していることが証明されています。同様の成果は、従来、手動でペアリングされたデータに依存していた2つのモダリティを組み合わせた状況においても、同様の技術をどのように適用するかについての調査を促しました。

興味深いアプローチの1つは、両方のモダリティに対して大きなエンコーダをトレーニングすることであり、その結果、どちらかがペアリングされていない例として提示されると、エンコーダは2つのモダリティを表現空間の似た場所にマッピングすることを学習します。このような表現は、単一のモデルを使用して数多くの画像理解およびテキスト理解タスクで最先端のパフォーマンスを実現できるだけでなく、画像/テキストドメインでも実現可能であることが示されています。

ニューヨーク大学とGoogleによる新しい研究では、明示的なアラインメントで見つかったパフォーマンスの向上が、アップサンプリングシステムで学習された暗黙のアラインメントに一貫性正則化を適用することで達成できるかどうかを調査しています。彼らは、動的時間歪みに触発された方法を開発し、音声とテキストの例のエンコーダの表現を最適にアラインメントします。明示的なアラインメントモデルが存在しない場合、チームは最適なアラインメントがトレーニング中だけでなく、ネットワークのレイヤを進むにつれて改善することも示しています。

音声認識の分野では、非ペアリングの音声とテキストデータの事前トレーニングを容易にするために、共通の音声とテキストエンコーダを持つモデルへの最近の傾向があります。音声を表現するために使用されるより長いシーケンスは、2つのシーケンスモダリティを含むため、音声認識にとって独特の難しさを提供します。そのため、エンコーダの音声表現をテキスト表現とフレームごとに比較することは、同じ埋め込み空間で両方のモダリティが表現されているにもかかわらず、より困難なプロセスとなります。

最後に、この研究では、単一言語および多言語の設定で、学習されたアラインメントモデルなしで、一貫性正則化の基準を直接のフレームワイズの比較ではなく、あるアラインメントの下で一貫性を促進するように変更することで、強力な半教師ベースラインに対して有意なWERの改善が実現できることが示されています。彼らの結果に基づくと、ミスアラインメントを許容することが、クロスモーダル表現の一貫性を強制するために必要なすべてであるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIと自動化

「AIと自動化技術が優れたリターンを提供する一方で、関連するリスクを理解し最小化するために慎重に取り組む必要がある方法...

機械学習

深層学習のマスタリング:非線形性をピースワイズな推定による近似するアート パート3

皆さん、こんにちは!私のディープラーニングマスタリングシリーズの第3回目へようこそこの記事は、第1部と第2部の続きであり...

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...

機械学習

AIのダークサイドを明らかにする:プロンプトハッキングがあなたのAIシステムを妨害する方法

LLMsによるハッキングを防止し、データを保護するために、AIシステムを保護してくださいこの新興脅威に対するリスク、影響、...

データサイエンス

「Pyroを使ったベイジアンABテスト」

この記事は、Pythonの確率プログラミング言語(PPL)であるPyroを使用したABテストの入門ですこれはPyMCの代替手段ですこの記...

人工知能

なぜ包括的な画像セットが私たちにより良い製品作りを助けるのか

「私たちは、より包括的な製品を構築するために、株式画像会社であるTONLと協力して、より代表的なデータセットを作成しました」