「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」
「UniAudio:1つのAIモデルで全てのオーディオタスクをこなせる新しいユニバーサルオーディオ生成システムをご紹介」
生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます増えています。たとえば、テキストから音声や音楽を生成する技術は、音声合成(TTS)、音声変換(VC)、歌声合成(SVS)、音声変換(VC)に基づいて、人間の要求に基づいて音声を生成します。オーディオ制作の過去の取り組みの多くは、タスクに特化した設計であり、主にドメインの専門知識に依存し、固定構成でのみ使用可能でした。この研究の目的は、各個別のタスクを個別に処理するのではなく、数多くの音声生成ジョブを1つの統一モデルで処理する万能音声生成を作成することです。
万能音声生成モデルは、さまざまなオーディオを生成するために、オーディオおよび関連するモダリティの十分な過去の知識を蓄積し、さまざまなオーディオを作成するための直感的で効率的なソリューションを提供できると予想されています。テキスト生成ジョブにおけるLarge Language Model(LLM)テクノロジーの優れたパフォーマンスは、いくつかのLLMベースの音声生成モデルにインスピレーションを与えました。これらの研究の中で、LLMのテキスト読み上げ(TTS)や音楽制作への独立性が研究され、競争力があるとされています。ただし、LLMが数多くのジョブを処理する潜在能力をより活用するために、音声生成の研究ではまだ十分に調査されていません。
彼らは、LLMのパラダイムはオーディオ制作における普遍性と多様性に希望を持つが、徹底的に調査されていないと主張しています。この研究では、香港中文大学、カーネギーメロン大学、マイクロソフトリサーチアジア、浙江大学からの研究者は、音素のシーケンス、テキストの説明、および音声自体を含む複数の入力モダリティに基づいて、音声(音声、ノイズ、音楽、歌声)のさまざまなジャンルを生成するためにLLMアプローチを使用したUniAudioを紹介しています。計画されたUniAudioの主な機能は次のとおりです。すべてのオーディオ形式と入力モダリティは、まず離散的なシーケンスとしてトークン化されます。オーディオ形式に関係なくオーディオをトークン化するために、汎用ニューラルコーデックモデルが開発され、さまざまな入力モダリティをトークン化するためにいくつかのトークナイザが使用されます。
- In Japanese 「GTE-tinyに会いましょう:ダウンストリームタスクのためのパワフルなテキスト埋め込み人工知能モデル」(GTE-tiny ni aimashou Daunsutori-mu tasuku no tame no pawafuru na tekisuto umekomi jōchū nō moeru) Note Please keep in mind that this translation is accurate, but it may be adjusted to fit
- ハスデックスとステーブルディフュージョン:2つのAI画像生成モデルを比較
- オンラインで機械学習を学ぶ方法
その後、UniAudioによってソースとターゲットのペアが単一のシーケンスに組み合わされます。最後に、UniAudioはLLMを使用して次のトークンの予測を行います。トークン化技術は、ニューラルコーデックに基づく残差ベクトル量子化を使用し、LLMが効果的に解析できないほど長くなるトークンシーケンス(1フレームがいくつかのトークンに相当)を生成します。インターフレームおよびイントラフレームの相関は、計算の複雑さを減らすために独立してモデル化されたマルチスケールトランスフォーマーアーキテクチャで行われます。特に、グローバルトランスフォーマーモジュールはフレーム間の相関を表します(たとえば、意味レベルで)。一方、ローカルトランスフォーマーモジュールはフレーム内の相関をモデル化します(たとえば、音響レベルで)。UniAudioの構築には、新しいプロジェクトへの拡張性を示すために2つのステップが含まれます。
まず、提案されたUniAudioは、複数の音声生成タスクで同時にトレーニングされ、オーディオの固有の特性とオーディオと他の入力モダリティとの関係についてのモデルの十分な事前知識を提供します。次に、わずかな調整で、トレーニングされたモデルは見えないさらなる音声生成活動に対応できるようになります。UniAudioは、音声生成の新たな需要に持続的に対応できるため、万能音声生成の基本モデルとなる可能性があります。彼らのUniAudioは、実験的に11の音声生成タスクをサポートしています:トレーニング段階では7つの音声生成ジョブをカバーし、ファインチューニングステップでは4つのタスクを追加します。音声と1Bのパラメータに合計165k時間のオーディオを収めるために、UniAudioの構築方法は拡大されました。
UniAudioは、客観的および主観的基準に基づく11のタスク全体で競争力のあるパフォーマンスを一貫して達成します。ほとんどのタスクでは現代の成果が達成されています。さらなる研究では、トレーニングステージで複数の活動を同時に行うことがすべての含まれるタスクに利益をもたらすことが示されています。さらに、UniAudioは非常に優れており、タスク固有のモデルを大きく上回り、新しい音声生成のワークロードに迅速に適応できます。結論として、彼らの研究は、普遍的な音声生成モデルの開発が重要であり、希望に満ち、有益であることを示しています。
以下は、この研究の主な貢献の概要です:
(1)11の音声生成タスクに対して単一のソリューションとして与えられるUniAudioは、過去のすべての取り組みよりも多岐にわたります。
(2) 技術に関しては、UniAudioは(i)音声およびその他の入力モダリティの連続的な表現、(ii)LLMベースの音声制作タスクの一貫した定式化、および(iii)音声生成のために特に作成された効果的なモデルアーキテクチャの新しいアイデアを提供しています。
(3) 幅広いテスト結果はUniAudioの総合的なパフォーマンスを検証し、柔軟な音声生成パラダイムの利点を示しています。
(4) UniAudioのデモとソースコードは公開されており、将来の研究で新たな音声制作の基礎モデルとして役立つことを願っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「イギリスのテックフェスティバルが、クリエイティブ産業でAIを活用するスタートアップ企業を紹介する」
- 「ソーシャルメディアと機械学習を使用して明らかになる、公園の質の格差」
- チャットアプリのLLMを比較する:LLaMA v2チャット対Vicuna
- 「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」
- 新しいAIの研究がコンピュータビジョンを通じてリチウムイオン電池の秘密を解き明かす
- OpenAIのGPT-4V(ision) AIのマルチモーダルフロンティアにおける大発見
- 「Amazon SageMakerを使用して、ファルコンモデルのパフォーマンスを向上させる」