「声AIがLLVCを発表:効率と速度に優れた画期的なリアルタイム音声変換モデル」

「声AIの画期的なLLVC発表:効率と速度に優れたリアルタイム音声変換モデル」

Koe AIの研究チームが、リアルタイムの任意の1つの声変換を可能にする、ultra-low latencyとminimal resource consumptionを特徴としたLLVC(Low-latency, Low-resource Voice Conversion)モデルを紹介しました。このモデルは、一般的な消費者向けCPU上で非常に高速に効率的に動作します。この研究は、LLVCのオープンソースのサンプル、コード、事前トレーニング済みのモデルの重みへのアクセスを広く提供しています。

LLVCモデルは、ジェネレータとディスクリミネータからなりますが、推論時にはジェネレータのみが使用されます。評価には、LibriSpeechのテストクリーンデータを使用し、Amazon Mechanical TurkのMean Opinion Scoresを用いて、自然さと目標話者の類似性を評価します。さらに、計算効率の向上のために、より大きなティーチャーモデルがより小さなスチューデントモデルをガイドする知識蒸留についても説明されています。

声変換は、話し方を他の話者のスタイルに合わせながら、元の内容やイントネーションを維持することを意味します。リアルタイムの声変換を実現するには、リアルタイム以上の速度、低遅延、将来のオーディオコンテキストへのアクセスの制限を持つことが必要です。既存の高品質の音声合成ネットワークは、これらの課題により適したものにする必要があります。Waveformerアーキテクチャに根ざしたLLVCは、リアルタイムの声変換のユニークな要求に対応するために設計されています。

LLVCは、低遅延とリソースの使用効率を特徴とするGAN構造と知識蒸留を採用して、非常に効率的な動作を実現しています。カスタマイズされたDCCエンコーダーとトランスフォーマーデコーダーアーキテクチャを統合しています。LLVCは、さまざまな話者の声を特定のターゲット話者に似せるために変換する、並列データセットでトレーニングされています。モデルの出力と合成ターゲットの音声の知覚的な違いを減らすことを中心に行われます。

LLVCは、16kHzのビットレートでsub-20msの遅延を実現し、消費者向けCPU上ではほぼ2.8倍の実時間処理を超える成果を収めました。LLVCは、オープンソースの声変換モデルの中で、最も低いリソース消費量と遅延率を誇ることで、ベンチマークを確立しています。モデルの品質と自己類似性を評価するために、LibriSpeechのテストクリーンファイルからN秒のクリップを使用してモデルのパフォーマンスを評価します。比較では、CPU推論の遅延が最小のNo-F0 RVCとQuickVCと競合します。

本研究は、CPU上でのリアルタイムの任意の1つの声変換に焦点を当てており、異なるハードウェアでのモデルのパフォーマンスや既存のモデルとの比較には触れていません。評価は、遅延とリソース使用量に限定されており、音声の品質や自然さに関する分析は行われていません。詳細なハイパーパラメータの分析の欠如は、特定のニーズに対する再現性と微調整に支障をきたします。本研究は、スケーラビリティ、OSの互換性、言語やアクセントに関する課題についても議論されていません。

まとめると、この研究は、LLVCを通じて、消費者向けCPU上でリアルタイムに動作する、低遅延かつリソース効率の良い声変換の実現可能性を確立しています。LLVCは、専用のGPUを必要とせず、音声合成、音声匿名化、声のアイデンティティ変更などの実用的なアプリケーションに適用できます。ジェネレーティブ対抗アーキテクチャと知識蒸留の使用により、オープンソースの声変換モデルの新たな標準を設定し、効率を重視しています。LLVCは、単一入力話者データの微調整による個別の声変換の可能性を提供します。多言語音声やノイズのある音声を含めるトレーニングデータの拡充は、モデルのさまざまな話者への適応性を向上させる可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強く支援」

Amazon Web Services(AWS)とAccelは、革新的な6週間のアクセラレータープログラム「ML Elevate 2023」を発表しました。この...

データサイエンス

「限られたトレーニングデータでも、機械学習モデルは信頼性のある結果を生み出すことができる」

研究者は、機械学習モデルが限られた訓練データでも信頼性のある結果を生成できることを示しました

データサイエンス

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイター...

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

人工知能

「StableCodeの公開:AIによるコーディングの新たな地平線」

この記事では、開発効率とアクセシビリティを向上させるためにStability AIが開発した革新的なAI製品であるStableCodeについ...

AI研究

GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント

Googleは、Google Labsから最新の実験的な提供であるNotebookLMを発表しています。以前はProject Tailwindとして知られていた...