新しい研究によって、テキストをスムーズに音声化することができるようになりました | Google

新しい研究によって、テキストを音声化することが可能になりました | Google

明示的に指定せずに、シーケンスの長さの不一致を克服する。

要約

テキスト音声（マルチモーダルモデル）のトレーニングには、独自の問題があります。オーディオのサンプルレートが高い場合、オーディオのシーケンスの長さは対応するテキストよりもはるかに長くなります。テキストとオーディオを同時にトレーニングするために、この不均衡を克服する必要があります（明示的に注釈付きのトレーニングデータを生成せずに怠惰に）。この論文はその問題を解決します。

概要

昨年、テキストによる画像生成の進歩が目覚ましいものとなり、テキストと画像のドメインが共同で表現されるクロスモーダル表現空間の考えに基づくものとなりました。

自動音声認識（ASR）においては、この考え方が音声とテキストの両方を訓練データとして使用し、非対称な音声とテキストのシーケンス長の不一致を特別に扱うことなく、非常に大きなパラメータモデルにスケールすることができる共同音声テキストエンコーダとして応用されています。これらの手法は有望ですが、音声とテキストのシーケンス長の不一致には、アップサンプリングヒューリスティクスまたは明示的なアラインメントモデルによる特別な処理が必要でした。

本研究では、共同音声テキストエンコーダはシーケンスの長さを無視することにより、モダリティ間で一貫した表現を自然に実現することを証明し、一貫性の損失が長さの違いを許し、最良のアラインメントを仮定することができると主張しています。このような損失が、大規模なモノリンガルおよびマルチリンガルシステムの下流ワードエラーレート（WER）を改善することを示しています。
このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー（TeCH）を提案します
「MITとハーバードの研究者が提案する(FAn)：SOTAコンピュータビジョンとロボティクスシステムの間のギャップを埋める包括的なAIシステム- 任意のオブジェクトのセグメンテーション、検出、追跡、および追従のためのエンドツーエンドのソリューションを提供する」
メタスの新しいテキストから画像へのモデル – CM3leon論文の説明

オーディオ埋め込みの水平軸と対応するテキスト埋め込みの垂直軸の埋め込み距離（a）と最良のアラインメント（b）の視覚化。 (a) の濃い点は、近くの埋め込みを持つオーディオとテキストフレームのペアを表し、(b) の黄色の点は、回復された最良のアラインメントのペアを表します。

解決の理論

両方のモダリティ（ここでは、音声とテキスト）で大規模なエンコーダを別々にトレーニングします。この方法では、各モダリティは対になっていない例を提供し、メタモデルは時間次元でペアの例をマッピングする方法を学習します。この表現は、画像+テキストのモダリティで最先端のパフォーマンスを提供できます。ただし、オーディオ+テキストのモダリティ組み合わせではうまく機能しません。

音声認識は、2つのシーケンスモダリティの特定の課題を提供します。…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

新しい研究によって、テキストをスムーズに音声化することができるようになりました | Google

明示的に指定せずに、シーケンスの長さの不一致を克服する。

要約

概要

解決の理論

Was this article helpful?

パンダの文字列操作を高速化する

「コンテキストの解読：NLPにおける単語ベクトル化技術」

AI研究

イスラエルの秘密エージェントが強力な生成AIで脅威と戦う方法

「Mojo」という新しいプログラミング言語は、Pythonの使いやすさとCのパフォーマンスを組み合わせ、AIハードウェアのプログラム可能性とAIモデルの拡張性を他のどの言語よりも優れたものにします

Amazon SageMaker Canvas を使用して、更新されたデータセットを使用して ML モデルを再トレーニングし、一括予測を自動化します

HashGNN Neo4j GDSの新しいノード埋め込みアルゴリズムに深く入り込む

確定論的 vs 確率的 – 機械学習の基礎

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう