「ネットイース・ヨウダオがEmotiVoiceをオープンソース化:強力でモダンなテキスト読み上げエンジン」というタイトルの記事です

「ネットイース・ヨウダオがエモティボイスをオープンソース化:パワフルでモダンなテキスト読み上げエンジン」という鮮やかな記事です!

NetEase Youdaoは、「易墨生」というオープンソースのテキスト読み上げ(TTS)エンジンの正式リリースを発表しました。これはGitHubで利用可能です。ウェブおよびスクリプトのインターフェースを提供しており、音色の情感合成を必要とするアプリケーション向けにバッチで結果を生成することが可能です。

Youdaoはこのテキスト読み上げエンジンを作成しました。現在、2000種類以上の音色に対応し、中国語と英語の両方をサポートしています。また、喜び、興奮、悲しみ、怒りなどの感情を生み出す独自の情感合成機能や多様な表現力を備えています。

オープンソースのテキスト読み上げエンジンに関しては、EmotiVoiceが一流です。 EmotiVoiceは2000以上のユニークな声を持ち、英語と中国語で会話することができます。最も目立つ機能は情感合成であり、幸福、熱意、悲しみ、怒りなど、幅広い感情で音声を生成することができます。

利用しやすいオンラインインターフェースが利用可能です。スクリプトインターフェースを介して結果を一括生成することができます。Dockerイメージを使用してEmotiVoiceを簡単にテストすることができます。NVidiaのグラフィックスプロセッシングユニットを搭載したコンピュータが必要です。LinuxまたはWindows WSL2にまだインストールしていない場合は、NVidiaコンテナツールキットをインストールしてください。

現在のシステムでは、プロンプトがユーザーの感情や行動を管理します。性別は重要視せず、調子、テンポ、強度、情熱に重点を置いています。オリジナルのクローズドソース設計のように、スタイル/音色コントローラを比較的簡単に追加することができます。

この記事は、NetEase Youdao Open-Sources EmotiVoice:パワフルでモダンなテキスト読み上げエンジンを最初に掲載したMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「トランスフォーマーはNFLプレーを生成できます:QB-GPTの紹介」

初めて「ストラトフォーマー」についての記事を書いて以来、多くのフィードバックとアイデアをいただいている(まず、ありが...

機械学習

マルチモーダル言語モデル:人工知能(AI)の未来

大規模言語モデル(LLM)は、テキストの分析や生成などのタスクをこなすことができるコンピュータモデルです。これらは膨大な...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

人工知能

「信じられないほどの新しい中間補間機能(領域の変化)」

「この機能により、グラフィックデザインの経験がないがグラフィックを作成したいという人にとって、Midjourneyは100倍も価値...

機械学習

メタがコードラマをリリース:コーディングのための最新のAIツール

メタ社は、驚異的な技術的飛躍を遂げ、最新の作品であるCode Llamaをリリースしました。Code Llamaは、Llama 2言語モデルをベ...

AIニュース

エンタープライズAIプラットフォームは、Amazon Bedrockを利用したものです

さまざまな基礎モデルを使用したAmazon Bedrockの解説と、エンタープライズGen AIプラットフォームの構築方法についてのガイド