PlayHTチームは、感情の概念を持つAIモデルをGenerative Voice AIに導入しますこれにより、特定の感情で話しの生成を制御し、指示することができるようになります

PlayHTチームは、感情を持つAIモデルをGenerative Voice AIに導入し、感情で話しを制御することができるようになります

I had trouble accessing your link so I’m going to try to continue without it.

音声認識は、自然言語処理(NLP)の領域で最近開発された技術の一つです。研究者たちは、テキストから音声を生成するための大規模な言語モデルも開発しました。AIは、声の品質、表現、人間の行動など、さまざまな面で人間と同等の結果を達成できることが非常に明確になりました。しかし、これらのモデルにはいくつかの問題がありました。これらのモデルは言語の多様性が少なかったです。音声認識、感情などにも問題がありました。多くの研究者がこれらの問題に気付き、これらはモデルに使用された小さなデータセットに起因することがわかりました。

改善が始まり、PlayHTチームはこのケーススタディの解決策としてPlayHT2.0を導入しました。このモデルの主な利点は、複数の言語を使用し、大量のデータセットを処理することでした。また、このモデルを使用することでモデルのサイズも増加しました。NLPのトランスフォーマーもこのモデルの実装に重要な役割を果たしました。モデルは与えられたトランスクリプトを処理し、音を予測します。これはトークン化と呼ばれるテキストから音声への変換プロセスを経ます。これにより、簡略化されたコードが音波に変換され、人間の音声が生成されます。

このモデルは非常に高い会話能力を持ち、いくつかの感情を持った通常の人間との会話ができます。AIチャットボットを介したこれらの技術は、多くの多国籍企業がオンライン通話やセミナーで使用しています。PlayHT2.0モデルは、それに使用される最適化技術により音声の品質も向上させました。また、元の声を再現することもできます。モデルに使用されるデータセットが非常に大きいため、モデルは元の言語を保持しながら他の言語も話すことができます。モデルのトレーニングプロセスは、多数のエポックとさまざまなハイパーパラメータを使用して行われました。これにより、モデルは音声認識技術においてさまざまな感情を表現するようになりました。

このモデルはまだ進行中であり、さらなる改善が行われる予定です。研究者たちはまだ感情の改善に取り組んでいます。プロンプトエンジニアや多くの研究者も、モデルが今後の数週間で速度、正確性、良いF1スコアの面で更新される可能性があることを発見しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIの新機能:ChatGPTプラグインとインターネットアクセスの最新情報」

「今日は、現在最も有名なAIの1つであるChatGPTの新しいアップデートについてお伝えします」

データサイエンス

「データ管理におけるメタデータの役割」

「メタデータは現代のデータ管理において中心的な役割を果たし、統合、品質、セキュリティに不可欠であり、デジタルトランス...

AIニュース

Googleの機能や製品をラボで試してください

Google の大胆で責任ある実験を最初に見て、それらの背後にいるチームにフィードバックを共有しましょう

機械学習

「DAE Talking 高忠実度音声駆動の話し相手生成における拡散オートエンコーダー」

今日は、新しい論文と、私が出会った中で最高品質の音声駆動ディープフェイクモデルについて話し合いますマイクロソフトリサ...

機械学習

ChatGPTを使ってより良いStackOverflowを作成する

1週間前、OpenAIがChatGPTでインターネット検索を停止したことで、私たちは少し「怒り」を感じましたので、私たちは問題を修...

データサイエンス

データサイエンスへのゲートの解除:GATE 2024 in DS&AIの究極の学習ガイド

イントロダクション Graduate Aptitude Test in Engineering(GATE)は、インドで行われる大学院入学試験です。この試験は主...