「VampNetと出会う:音楽合成、圧縮、補完、および変動のためのマスクされた音響トークンモデリングアプローチ」

VampNet Masked acoustic token modeling approach for music synthesis, compression, completion, and variation

最近、離散音響トークンモデリングの進展により、音声や音楽の自己回帰的な生成において重要な改善がなされています。効果的な画像生成のためには、非自己回帰的な並列反復デコーディング手法が考案されています。過去と未来のシーケンス成分の両方に依存するような補完タスクは、自己回帰的なアプローチよりも並列反復デコーディングに適しています。本研究では、音響トークンモデリングと同時反復デコーディングを音楽音声合成に利用しています。彼らの知る限り、彼らの手法はニューラルオーディオ音楽合成に並列反復デコーディングを初めて使用しています。

彼らは、VampNetと呼ばれるモデルを広範なアプリケーションに適応するために、トークンベースのプロンプティングを使用しています。彼らは意図的に隠された音楽トークンのシーケンスを使用して、VampNetの生成を指示し、それに欠落部分を埋める能力を示しています。このプロセスの結果は、高品質のオーディオ圧縮手法から、スタイル、ジャンル、ビート、楽器において元の入力音楽に密接に似ているが、いくつかの音色とリズムの微妙な変化を加えたバリエーションまでさまざまです。彼らの手法では、プロンプトをどこにでも配置することができます。これに対し、自己回帰的な音楽モデルは、プレフィックスオーディオをプロンプトとして使用し、それに続く音楽を生成することしかできません。

図1: VampNetの概要。まず、オーディオトークナイザを使用してオーディオを一連の異なるトークンに分割します。トークンはまずマスクされ、マスクされたトークンの値を予測するために、効果的な反復並列デコーディングサンプリング技術を使用するマスク生成モデルに送信されます。出力はその後、オーディオに復号化されます。

彼らは、周期的なプロンプトや圧縮、音楽に触発されたもの(ビート上のマスキングなど)など、さまざまなプロンプトデザインを調査しています。彼らは、ループやバリエーションを作成するよう指示された場合に、彼らのモデルが優れたパフォーマンスを発揮することを発見しました。そのため、VampNetと呼ばれています。彼らはコードのダウンロードを提供し、オーディオサンプルをチェックすることを強く勧めています。Descript Inc.とノースウェスタン大学の研究者たちは、マスクされた音響トークンモデリングを使用して音楽を生成するためのVampNetという手法を紹介しました。入力オーディオファイルは双方向であるため、さまざまな方法でVampNetをプロンプトすることができます。VampNetは、音楽の圧縮から製作まで、さまざまなプロンプトアプローチを通じて連続的に機能するため、音楽のバリエーションを作成するための優れたツールです。

ミュージシャンは、VampNetを使用して短いループを録音し、システムに入力すると、ループ領域が繰り返されるたびにVampNetがアイデアの音楽バリエーションを生み出すことができます。彼らはVampNetとそのプロンプトアプローチの相互作用的な音楽共創の可能性、およびマスクされた音響トークンモデリングの表現学習能力をさらに研究する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に...

AI研究

「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」

“`html 大規模言語モデル(LLM)は、ALFWORLDやALPHACODEなどのさまざまな現場でのアクション製作において、以前の試み...

コンピュータサイエンス

「あなたの学校の次のセキュリティガードはロボットかもしれません」

いくつかのテクノロジー企業が、アメリカの学校にセキュリティロボットの提供を開始しました

データサイエンス

「LLMsを使用したモバイルアプリの音声と自然言語の入力」

この記事では、GPT-4の関数呼び出しを使用してアプリに高度な柔軟性のある音声理解を実現する方法について学びますこれにより...

AIニュース

「目を閉じると見える光の『地図』が改善し、『バイオニックアイ』の結果を向上させる」

オーストラリアのモナッシュ大学の研究者が開発した脳皮質視覚プロステーゼを受ける患者が手術の結果をより良くするための脈...

AI研究

UCSFとUC Berkeleyの研究者たちは、脳幹の脳卒中による重度の麻痺を持つ女性がデジタルアバターを通じて話すことができるようにする脳-コンピューターインタフェース(BCI)を開発しました

人工知能は今日では音声と顔の認識に重要な役割を果たしています。これらの信号は脳の信号によって記録・合成され、AIの劇的...