AIにおける音の革命に備えよう 2023年は生成音波の年です
AIの音の革命に備えよう2023年は生成音波の年です
前年は、コンピュータビジョン(CV)および自然言語処理(NLP)に集中した作業量が大幅に増加しました。そのため、世界中の学者たちは、音声生成に深層学習と大規模言語モデル(LLM)がもたらす可能性の利益に注目しています。わずか数週間の間に、新たに4つの論文が発表され、それぞれがこの分野でさらなる研究を容易にする可能性のある有用な音声モデルを紹介しています。
MusicLM
最初のモデルはMusicLMで、GoogleとIRCAM – Sorbonne Universiteの研究者によって開発されました。MusicLMは、「ゆったりとしたバイオリンの旋律を歪んだギターリフで支える」といったテキストの説明から高品質の音楽を生成することができるモデルです。MusicLMは、数分間一定の24 kHzの音楽を生成するモデルであり、条件付きの音楽生成を階層的なシーケンスツーシーケンスモデリングの仕事としてモデル化しています。MusicLMはテキストとメロディの両方でトレーニングすることができます。これにより、ハミングや口笛のメロディをテキストのキャプションのテナーに合わせてピッチとテンポを調整することができます。MusicCapsは、詳細な人間生成の説明で注釈付けされた5.5kの音楽テキストペアを含む公開データセットです。
- 2023年のトップジェネレーティブAI企業
- 「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」
- 「LMQLに出会ってください:大規模言語モデル(LLM)との対話のためのオープンソースプログラミング言語とプラットフォーム」
MusicLMは、SoundStream、w2v-BERT、およびMuLanの事前学習モジュールで特にトレーニングされています。3つの事前学習モデルのうちの1つであるCLIPのようなモデルであるMuLanは特に興味深いものであり、埋め込み空間で結合された音声とテキストをより近い距離でエンコードすることを学習します。彼らの論文「MusicLM: Generating Music From Text」で述べられているように、MuLanのサポートにより、MusicLMは十分なペアデータの問題を克服し、大規模な音声コーパスから知識を獲得することができます。
SingSong
別のGoogleの研究では、SingSongというシステムを提案しています。このシステムは、入力されたボーカル音声に続く楽器の音楽を生成することができます。つまり、出力される楽器音楽は、入力されたボーカルと組み合わせて連続した音楽を作成することができます。
SingSongは、音楽技術の2つの重要な領域である音源分離と生成音声モデリングの進歩を利用しています。チームは、商業的に利用可能な音源分離技術を使用して、100万曲を含む大規模な音楽データセットをボーカルと楽器のソースに整列させたペアに分割しました。これを私たちの作業のための並列データとして使用しました。次に、音源分離されたデータに対して、事前学習済みの言語モデルによって生成されたテキスト埋め込みに基づいて、条件付きの「音声から音声へ」の生成モデリングを行うために、AudioLMを再利用しました。AudioLMは、中間表現の階層を持つ音声生成モデルであり、したがって無条件の音声生成モデリングに適しています。
彼らの論文「SingSong: Generating musical accompaniments from singing」によれば、入力されたボーカルの一般化を向上させるために、2つの特徴化戦略が提案されています:
- アーティファクトを隠すためにボーカル入力にノイズを追加する
- AudioLMからの粗い中間表現のみを条件として使用する
これらの改良により、標準のAudioLMエンハンスメントと比較して、孤立したボーカルのパフォーマンスが55%向上しました。SingSongの楽器音楽は、参照検索手法を使用した楽器音楽と比較して、聴衆の66%が選択しました。さらに重要なことに、聴衆の34%はSingSongの楽器音楽をグラウンドトゥルースよりも好みました。
Moûsai
ETH ZürichとMax Planck Institute for Intelligent Systemsの研究者のグループによる共同研究であるMoûsaiは、長いコンテキストを基にした48kHzのステレオ音楽をテキストに基づいて構築し、幅広い種類の音楽を生成するテキスト条件つきの連鎖拡散モデルです。
彼らの論文「Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion」によれば、研究者たちはMoûsaiモデルで2段階の連鎖拡散を使用しています。
- 第1段階では、オーディオウェーブ形式を圧縮するための新しい拡散オートエンコーダを使用して、音質を中程度に保ちながら64倍に圧縮します。
- 第2段階では、事前学習済みの言語モデルによって生成されたテキスト埋め込みに基づいて、縮小された潜在表現を生成することを学習します。
彼らは、両方のステージで使用される効率的なU-Netの最適化バージョンを使用しました。彼らの調査結果は、推論が迅速に行われることを示しており、実世界での実践が可能です。同様に、各ステージは単一のA100 GPUで約1週間かけてトレーニングされるなど、最小限のリソースでシステム全体を教育および実行することができます。
AudioLDM
サリー大学は、イギリスのインペリアル・カレッジ・ロンドンとの共同研究により、AudioLDMというTTAシステムを導入しました。このシステムは、連続的なLDMを使用して、最先端の生成品質を実現し、計算効率とテキストによるオーディオ操作の利点を持っています。彼らの研究は、「AudioLDM: Text-to-Audio Generation with Latent Diffusion Models」という論文で示されており、メルスペクトログラムベースの変分オートエンコーダを用いることで、AudioLDMはオーディオの事前知識を潜在空間(VAE)で学習することができることを示しています。
LDMのトレーニングにおいて、言語とオーディオのペアに頼るのではなく、研究者たちはCLAP潜在変数を利用してTTAの生成を容易にしています。彼らの実験は、オーディオ入力のみを用いてLDMのトレーニングを行うことで、高品質で計算効率の良いTTAシステムを得ることができることを示しています。彼らの研究は、オーディオのみを用いてLDMを効果的にトレーニングすることが可能であることを示しています。
AudioCapsデータセットでのテストでは、提案されたAudioLDMはDiffSoundベースラインを大幅に上回り、フレッシュ距離(FD)23.31で最先端のTTA性能を達成しています。この技術により、サンプリング中にゼロショットのオーディオ変更が可能となります。
EPIC SOUNDSデータセット
最後に、オックスフォード大学とブリストル大学は、EPIC-audio KITCHENS100を使用して、日常の音の巨大なデータセットであるEPIC-SOUNDSを作成しました。EPIC-SOUNDSには、45の住宅キッチンから700のビデオから抽出された100時間の映像が含まれており、合計117,553の音のイベントが含まれています。これには44のカテゴリを持つ78,366の分類済み音のイベントと、39,187の非分類音のイベントが含まれています。音のクラスは、聴覚的な説明のみを用いて作成されており、音声/音の認識や音のイベント検出などの音響的な課題に適しています。
音楽生成技術は、音楽文化を根本的に変革し、利害関係者の経済的なつながりを再定義する可能性があります。多くの研究者は、これらのモデルが創造的な音楽への参加の拡大など、深刻な危険をもたらす可能性について懸念を表明しています。具体的には、歌声という人間の声が、他のどの楽器よりも個人のアイデンティティと強く関連している可能性があります。
ゼロから音楽を生成するシステムやアイデンティティを模倣するシステムの欠点を避けるために、多くの研究者は、これらのモデルがユーザーの主体性(歌唱)に頼ることで音楽を生成し、個人の個性を出力に保持するべきだと考えています。
研究者たちはまた、最近の研究が業界を変え、音楽制作者が音楽のアイデアやコンセプトをより速く生成し、新しい音やスタイルを試し、繰り返しの作業を自動化することで、より生産的になる可能性があると考えています。さらに、人間のミュージシャンは、機械が再現できない芸術性とニュアンスを音楽にもたらします。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles