PlayHTチームは、感情の概念を持つAIモデルをGenerative Voice AIに導入しますこれにより、特定の感情で話しの生成を制御し、指示することができるようになります

PlayHTチームは、感情を持つAIモデルをGenerative Voice AIに導入し、感情で話しを制御することができるようになります

I had trouble accessing your link so I’m going to try to continue without it.

音声認識は、自然言語処理(NLP)の領域で最近開発された技術の一つです。研究者たちは、テキストから音声を生成するための大規模な言語モデルも開発しました。AIは、声の品質、表現、人間の行動など、さまざまな面で人間と同等の結果を達成できることが非常に明確になりました。しかし、これらのモデルにはいくつかの問題がありました。これらのモデルは言語の多様性が少なかったです。音声認識、感情などにも問題がありました。多くの研究者がこれらの問題に気付き、これらはモデルに使用された小さなデータセットに起因することがわかりました。

改善が始まり、PlayHTチームはこのケーススタディの解決策としてPlayHT2.0を導入しました。このモデルの主な利点は、複数の言語を使用し、大量のデータセットを処理することでした。また、このモデルを使用することでモデルのサイズも増加しました。NLPのトランスフォーマーもこのモデルの実装に重要な役割を果たしました。モデルは与えられたトランスクリプトを処理し、音を予測します。これはトークン化と呼ばれるテキストから音声への変換プロセスを経ます。これにより、簡略化されたコードが音波に変換され、人間の音声が生成されます。

このモデルは非常に高い会話能力を持ち、いくつかの感情を持った通常の人間との会話ができます。AIチャットボットを介したこれらの技術は、多くの多国籍企業がオンライン通話やセミナーで使用しています。PlayHT2.0モデルは、それに使用される最適化技術により音声の品質も向上させました。また、元の声を再現することもできます。モデルに使用されるデータセットが非常に大きいため、モデルは元の言語を保持しながら他の言語も話すことができます。モデルのトレーニングプロセスは、多数のエポックとさまざまなハイパーパラメータを使用して行われました。これにより、モデルは音声認識技術においてさまざまな感情を表現するようになりました。

このモデルはまだ進行中であり、さらなる改善が行われる予定です。研究者たちはまだ感情の改善に取り組んでいます。プロンプトエンジニアや多くの研究者も、モデルが今後の数週間で速度、正確性、良いF1スコアの面で更新される可能性があることを発見しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「新しい取り組みによる輸送とエネルギーの排出削減法」

これらの新製品の特徴と展開は、人々、都市計画者、政策立案者が持続可能な未来を構築するための行動を取るのに役立ちます

データサイエンス

エンジニアリングリーダーは何を気にしているのか?

私たちのエンジニアリングリーダーズフォーラム ラウンドテーブルのまとめと、VPたちがAI、ChatGPT、リモートワーク、DORAメ...

人工知能

「C# で GPT(一般目的テンプレート)を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています

機械学習

「KOSMOS-2:Microsoftによるマルチモーダルな大規模言語モデル」

イントロダクション 2023年はAIの年となりました。言語モデルから安定した拡散モデルの強化にSegMind APIを使うまで、AI技術...

機械学習

「アフリカと中東で5人の生成型AIイノベーターに会おう」

起業家たちは、西アフリカの西海岸からアラビア砂漠の東端まで、生成的AIを育てています。 Gen AIは、コーヒ・ゲンフィとニー...