このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

このNYUとGoogleの論文は、シーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it.

非常に大きなモデルが、単一のモダリティで大量の非監督コーパスでトレーニングされることで、驚くべき結果を達成できることがますます明らかになってきています。これは、音声ドメインでは、単一のモデルが驚くほど広範な音響タスクに適応できることが示され、テキストドメインでは、言語モデルが例外的なゼロショットの能力を獲得していることが証明されています。同様の成果は、従来、手動でペアリングされたデータに依存していた2つのモダリティを組み合わせた状況においても、同様の技術をどのように適用するかについての調査を促しました。

興味深いアプローチの1つは、両方のモダリティに対して大きなエンコーダをトレーニングすることであり、その結果、どちらかがペアリングされていない例として提示されると、エンコーダは2つのモダリティを表現空間の似た場所にマッピングすることを学習します。このような表現は、単一のモデルを使用して数多くの画像理解およびテキスト理解タスクで最先端のパフォーマンスを実現できるだけでなく、画像/テキストドメインでも実現可能であることが示されています。

ニューヨーク大学とGoogleによる新しい研究では、明示的なアラインメントで見つかったパフォーマンスの向上が、アップサンプリングシステムで学習された暗黙のアラインメントに一貫性正則化を適用することで達成できるかどうかを調査しています。彼らは、動的時間歪みに触発された方法を開発し、音声とテキストの例のエンコーダの表現を最適にアラインメントします。明示的なアラインメントモデルが存在しない場合、チームは最適なアラインメントがトレーニング中だけでなく、ネットワークのレイヤを進むにつれて改善することも示しています。

音声認識の分野では、非ペアリングの音声とテキストデータの事前トレーニングを容易にするために、共通の音声とテキストエンコーダを持つモデルへの最近の傾向があります。音声を表現するために使用されるより長いシーケンスは、2つのシーケンスモダリティを含むため、音声認識にとって独特の難しさを提供します。そのため、エンコーダの音声表現をテキスト表現とフレームごとに比較することは、同じ埋め込み空間で両方のモダリティが表現されているにもかかわらず、より困難なプロセスとなります。

最後に、この研究では、単一言語および多言語の設定で、学習されたアラインメントモデルなしで、一貫性正則化の基準を直接のフレームワイズの比較ではなく、あるアラインメントの下で一貫性を促進するように変更することで、強力な半教師ベースラインに対して有意なWERの改善が実現できることが示されています。彼らの結果に基づくと、ミスアラインメントを許容することが、クロスモーダル表現の一貫性を強制するために必要なすべてであるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

デシAIは、DeciDiffusion 1.0を公開しました:820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

問題の定義 テキストから画像を生成することは、人工知能において長い間の課題でした。テキストの説明を鮮明でリアルな画像に...

データサイエンス

データ汚染とモデル崩壊:迫りくるAIの災害

AI生成コンテンツの存在は、疫病のように広がり、検索結果を毒し、さらにAIモデルを崩壊させるでしょう

AIニュース

スケーリングダウン、スケーリングアップ:モデルの量子化での生成AIのマスタリング

紹介 人工知能の進化する風景の中で、生成型AIは確実に革新の中核となってきました。これらの高度なモデルは、芸術の創造、テ...

データサイエンス

ファインチューニングLLM パラメータ効率の改善 (PEFT) — LoRA および QLoRA — パート1

このブログでは、パラメータ効率的微調整(PEFT)のアイデアを理解し、PEFTの2つの最も重要な手法であるLoRAとQLoRAを探求します

人工知能

「目標をより早く達成するための25のChatGPTプロンプト」

「自分の目標を達成することに苦しんでいると感じたときはいつでも、この記事を読んでください... 効果があります」

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...