「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

「UniAudio:1つのAIモデルで全てのオーディオタスクをこなせる新しいユニバーサルオーディオ生成システムをご紹介」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます増えています。たとえば、テキストから音声や音楽を生成する技術は、音声合成(TTS)、音声変換(VC)、歌声合成(SVS)、音声変換(VC)に基づいて、人間の要求に基づいて音声を生成します。オーディオ制作の過去の取り組みの多くは、タスクに特化した設計であり、主にドメインの専門知識に依存し、固定構成でのみ使用可能でした。この研究の目的は、各個別のタスクを個別に処理するのではなく、数多くの音声生成ジョブを1つの統一モデルで処理する万能音声生成を作成することです。

万能音声生成モデルは、さまざまなオーディオを生成するために、オーディオおよび関連するモダリティの十分な過去の知識を蓄積し、さまざまなオーディオを作成するための直感的で効率的なソリューションを提供できると予想されています。テキスト生成ジョブにおけるLarge Language Model(LLM)テクノロジーの優れたパフォーマンスは、いくつかのLLMベースの音声生成モデルにインスピレーションを与えました。これらの研究の中で、LLMのテキスト読み上げ(TTS)や音楽制作への独立性が研究され、競争力があるとされています。ただし、LLMが数多くのジョブを処理する潜在能力をより活用するために、音声生成の研究ではまだ十分に調査されていません。

彼らは、LLMのパラダイムはオーディオ制作における普遍性と多様性に希望を持つが、徹底的に調査されていないと主張しています。この研究では、香港中文大学、カーネギーメロン大学、マイクロソフトリサーチアジア、浙江大学からの研究者は、音素のシーケンス、テキストの説明、および音声自体を含む複数の入力モダリティに基づいて、音声(音声、ノイズ、音楽、歌声)のさまざまなジャンルを生成するためにLLMアプローチを使用したUniAudioを紹介しています。計画されたUniAudioの主な機能は次のとおりです。すべてのオーディオ形式と入力モダリティは、まず離散的なシーケンスとしてトークン化されます。オーディオ形式に関係なくオーディオをトークン化するために、汎用ニューラルコーデックモデルが開発され、さまざまな入力モダリティをトークン化するためにいくつかのトークナイザが使用されます。

https://arxiv.org/abs/2310.00704

その後、UniAudioによってソースとターゲットのペアが単一のシーケンスに組み合わされます。最後に、UniAudioはLLMを使用して次のトークンの予測を行います。トークン化技術は、ニューラルコーデックに基づく残差ベクトル量子化を使用し、LLMが効果的に解析できないほど長くなるトークンシーケンス(1フレームがいくつかのトークンに相当)を生成します。インターフレームおよびイントラフレームの相関は、計算の複雑さを減らすために独立してモデル化されたマルチスケールトランスフォーマーアーキテクチャで行われます。特に、グローバルトランスフォーマーモジュールはフレーム間の相関を表します(たとえば、意味レベルで)。一方、ローカルトランスフォーマーモジュールはフレーム内の相関をモデル化します(たとえば、音響レベルで)。UniAudioの構築には、新しいプロジェクトへの拡張性を示すために2つのステップが含まれます。

まず、提案されたUniAudioは、複数の音声生成タスクで同時にトレーニングされ、オーディオの固有の特性とオーディオと他の入力モダリティとの関係についてのモデルの十分な事前知識を提供します。次に、わずかな調整で、トレーニングされたモデルは見えないさらなる音声生成活動に対応できるようになります。UniAudioは、音声生成の新たな需要に持続的に対応できるため、万能音声生成の基本モデルとなる可能性があります。彼らのUniAudioは、実験的に11の音声生成タスクをサポートしています:トレーニング段階では7つの音声生成ジョブをカバーし、ファインチューニングステップでは4つのタスクを追加します。音声と1Bのパラメータに合計165k時間のオーディオを収めるために、UniAudioの構築方法は拡大されました。

UniAudioは、客観的および主観的基準に基づく11のタスク全体で競争力のあるパフォーマンスを一貫して達成します。ほとんどのタスクでは現代の成果が達成されています。さらなる研究では、トレーニングステージで複数の活動を同時に行うことがすべての含まれるタスクに利益をもたらすことが示されています。さらに、UniAudioは非常に優れており、タスク固有のモデルを大きく上回り、新しい音声生成のワークロードに迅速に適応できます。結論として、彼らの研究は、普遍的な音声生成モデルの開発が重要であり、希望に満ち、有益であることを示しています。

以下は、この研究の主な貢献の概要です:

(1)11の音声生成タスクに対して単一のソリューションとして与えられるUniAudioは、過去のすべての取り組みよりも多岐にわたります。

(2) 技術に関しては、UniAudioは(i)音声およびその他の入力モダリティの連続的な表現、(ii)LLMベースの音声制作タスクの一貫した定式化、および(iii)音声生成のために特に作成された効果的なモデルアーキテクチャの新しいアイデアを提供しています。

(3) 幅広いテスト結果はUniAudioの総合的なパフォーマンスを検証し、柔軟な音声生成パラダイムの利点を示しています。

(4) UniAudioのデモとソースコードは公開されており、将来の研究で新たな音声制作の基礎モデルとして役立つことを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています

自然言語処理の多くの領域では、言語解釈や自然言語合成を含む機械学習モデルの大規模トレーニングにおいて、トランスフォー...

AIテクノロジー

ヨーロッパのAI最大手MISTRAL AIが3億8500万ユーロを調達

技術のダイナミックな世界では、人工知能(AI)が産業を再構築している中、フランスのスタートアップ企業であるMistral AIが...

機械学習

焼け落ちた炎:スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

カリフォルニアの大規模な山火事によって空がオレンジ色に変わったとき、あるスタートアップはコンピュータビジョンと生成AI...

人工知能

最近の記録的な売上で.AIドメイン名の価値が急上昇しています

2023年には.aiドメイン名の取引価値が著しい増加を見ています元々、「.ai」はアンギラの国別コードトップレベルドメイン(ccT...

人工知能

ChatGPTでリードマグネットのアイデアをブレインストームする

バリューパックされたリードマグネットのアイデアを考えるのに苦労している場合、ChatGPTは素晴らしいブレインストーミングツ...

データサイエンス

「スコア!チームNVIDIAが推薦システムでトロフィーを獲得」

4つの大陸に広がる5人の機械学習のエキスパートで構成されるクラックチームが、最先端の推薦システムを構築するための激しい...