「ネットイース・ヨウダオがEmotiVoiceをオープンソース化:強力でモダンなテキスト読み上げエンジン」というタイトルの記事です

「ネットイース・ヨウダオがエモティボイスをオープンソース化:パワフルでモダンなテキスト読み上げエンジン」という鮮やかな記事です!

NetEase Youdaoは、「易墨生」というオープンソースのテキスト読み上げ(TTS)エンジンの正式リリースを発表しました。これはGitHubで利用可能です。ウェブおよびスクリプトのインターフェースを提供しており、音色の情感合成を必要とするアプリケーション向けにバッチで結果を生成することが可能です。

Youdaoはこのテキスト読み上げエンジンを作成しました。現在、2000種類以上の音色に対応し、中国語と英語の両方をサポートしています。また、喜び、興奮、悲しみ、怒りなどの感情を生み出す独自の情感合成機能や多様な表現力を備えています。

オープンソースのテキスト読み上げエンジンに関しては、EmotiVoiceが一流です。 EmotiVoiceは2000以上のユニークな声を持ち、英語と中国語で会話することができます。最も目立つ機能は情感合成であり、幸福、熱意、悲しみ、怒りなど、幅広い感情で音声を生成することができます。

利用しやすいオンラインインターフェースが利用可能です。スクリプトインターフェースを介して結果を一括生成することができます。Dockerイメージを使用してEmotiVoiceを簡単にテストすることができます。NVidiaのグラフィックスプロセッシングユニットを搭載したコンピュータが必要です。LinuxまたはWindows WSL2にまだインストールしていない場合は、NVidiaコンテナツールキットをインストールしてください。

現在のシステムでは、プロンプトがユーザーの感情や行動を管理します。性別は重要視せず、調子、テンポ、強度、情熱に重点を置いています。オリジナルのクローズドソース設計のように、スタイル/音色コントローラを比較的簡単に追加することができます。

この記事は、NetEase Youdao Open-Sources EmotiVoice:パワフルでモダンなテキスト読み上げエンジンを最初に掲載したMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

人工知能

Midjourney v5.2の新しいズームアウト機能の使い方(最良の例)

Midjourney v5.2がリリースされ、期待を裏切りませんでしたズームアウト機能は素晴らしいです

AIニュース

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう

Googleは、インド人と日本人が情報の広大な領域を探索する方法を再定義する画期的なイノベーションを発表しました。人工知能...

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

AI研究

『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』

がん治療の精緻化を追求する中、研究者たちは、腫瘍のダイナミクスを飛躍的に向上させる画期的な解決策を導入しました。この...

AI研究

UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人...