「ネットイース・ヨウダオがEmotiVoiceをオープンソース化:強力でモダンなテキスト読み上げエンジン」というタイトルの記事です

「ネットイース・ヨウダオがエモティボイスをオープンソース化:パワフルでモダンなテキスト読み上げエンジン」という鮮やかな記事です!

NetEase Youdaoは、「易墨生」というオープンソースのテキスト読み上げ(TTS)エンジンの正式リリースを発表しました。これはGitHubで利用可能です。ウェブおよびスクリプトのインターフェースを提供しており、音色の情感合成を必要とするアプリケーション向けにバッチで結果を生成することが可能です。

Youdaoはこのテキスト読み上げエンジンを作成しました。現在、2000種類以上の音色に対応し、中国語と英語の両方をサポートしています。また、喜び、興奮、悲しみ、怒りなどの感情を生み出す独自の情感合成機能や多様な表現力を備えています。

オープンソースのテキスト読み上げエンジンに関しては、EmotiVoiceが一流です。 EmotiVoiceは2000以上のユニークな声を持ち、英語と中国語で会話することができます。最も目立つ機能は情感合成であり、幸福、熱意、悲しみ、怒りなど、幅広い感情で音声を生成することができます。

利用しやすいオンラインインターフェースが利用可能です。スクリプトインターフェースを介して結果を一括生成することができます。Dockerイメージを使用してEmotiVoiceを簡単にテストすることができます。NVidiaのグラフィックスプロセッシングユニットを搭載したコンピュータが必要です。LinuxまたはWindows WSL2にまだインストールしていない場合は、NVidiaコンテナツールキットをインストールしてください。

現在のシステムでは、プロンプトがユーザーの感情や行動を管理します。性別は重要視せず、調子、テンポ、強度、情熱に重点を置いています。オリジナルのクローズドソース設計のように、スタイル/音色コントローラを比較的簡単に追加することができます。

この記事は、NetEase Youdao Open-Sources EmotiVoice:パワフルでモダンなテキスト読み上げエンジンを最初に掲載したMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシ...

機械学習

「物理学と流体力学に応用されたディープラーニング」

数値シミュレーションは、物理システムの挙動を理解するために何年も使用されてきました流体が構造物と相互作用する方法、応...

機械学習

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組ん...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

AIテクノロジー

AIの台頭が犬食い犬のテック産業を牽引している

「テクノロジー業界が根本的な変革を遂げていることについては、私と同意していただけると思いますあなたもそれを見ることが...

機械学習

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Go...