新しい研究によって、テキストをスムーズに音声化することができるようになりました | Google

新しい研究によって、テキストを音声化することが可能になりました | Google

明示的に指定せずに、シーケンスの長さの不一致を克服する。

要約

テキスト音声(マルチモーダルモデル)のトレーニングには、独自の問題があります。オーディオのサンプルレートが高い場合、オーディオのシーケンスの長さは対応するテキストよりもはるかに長くなります。テキストとオーディオを同時にトレーニングするために、この不均衡を克服する必要があります(明示的に注釈付きのトレーニングデータを生成せずに怠惰に)。この論文はその問題を解決します。

概要

昨年、テキストによる画像生成の進歩が目覚ましいものとなり、テキストと画像のドメインが共同で表現されるクロスモーダル表現空間の考えに基づくものとなりました。

自動音声認識(ASR)においては、この考え方が音声とテキストの両方を訓練データとして使用し、非対称な音声とテキストのシーケンス長の不一致を特別に扱うことなく、非常に大きなパラメータモデルにスケールすることができる共同音声テキストエンコーダとして応用されています。これらの手法は有望ですが、音声とテキストのシーケンス長の不一致には、アップサンプリングヒューリスティクスまたは明示的なアラインメントモデルによる特別な処理が必要でした。

本研究では、共同音声テキストエンコーダはシーケンスの長さを無視することにより、モダリティ間で一貫した表現を自然に実現することを証明し、一貫性の損失が長さの違いを許し、最良のアラインメントを仮定することができると主張しています。このような損失が、大規模なモノリンガルおよびマルチリンガルシステムの下流ワードエラーレート(WER)を改善することを示しています。

オーディオ埋め込みの水平軸と対応するテキスト埋め込みの垂直軸の埋め込み距離(a)と最良のアラインメント(b)の視覚化。 (a) の濃い点は、近くの埋め込みを持つオーディオとテキストフレームのペアを表し、(b) の黄色の点は、回復された最良のアラインメントのペアを表します。

解決の理論

両方のモダリティ(ここでは、音声とテキスト)で大規模なエンコーダを別々にトレーニングします。この方法では、各モダリティは対になっていない例を提供し、メタモデルは時間次元でペアの例をマッピングする方法を学習します。この表現は、画像+テキストのモダリティで最先端のパフォーマンスを提供できます。ただし、オーディオ+テキストのモダリティ組み合わせではうまく機能しません。

音声認識は、2つのシーケンスモダリティの特定の課題を提供します。…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このUCLAのAI研究によると、大規模な言語モデル(例:GPT-3)は、様々なアナロジー問題に対してゼロショットの解決策を獲得するという新たな能力を獲得していることが示されています

類推的な推論は、人間の知性と創造力の基盤となるものです。未知の課題に直面した際、個人は順序立ててそれらをより理解しや...

AIニュース

「2023年のトップ8 AIフォトミキサー」

Fotor Fotorの新しくリリースされたオンラインフォトブレンダーは、2つの画像を芸術的にシームレスにブレンドすることを目指...

人工知能

プロンプトエンジニアリングの芸術:ChatGPTのデコード

OpenAIとDeepLearning.AIのコースを受講して、AIとの相互作用の原理と実践をマスターする

機械学習

このAI論文は、効率的な水素燃焼予測のための画期的な機械学習モデルを紹介しています:「ネガティブデザイン」および反応化学におけるメタダイナミクスを活用しています

ポテンシャルエネルギーサーフェス(PES)は、原子または分子の位置とそれに関連するポテンシャルエネルギーの関係を表します...

機械学習

主要な金融グループは、AWSのポストコール分析ソリューションを使用して、オムニチャネルの顧客洞察を抽出しています

「事業140年以上の確立された金融サービス企業、プリンシパルは、グローバルな投資管理のリーダーであり、世界中で6,200万人...

AI研究

MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました

ニューヨーク大学とカリフォルニア大学バークレー校との共同研究により、MITの研究者たちは、人間が最小限の努力で家庭のタス...