メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

MetaAI has open-sourced AudioCraft, a PyTorch library for deep learning research on audio generation.

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudioCraftのリリースを行いました。開発のためのAudioCraftフレームワークを構成する3つのモデルは、MusicGen、AudioGen、およびEnCodecです。

  • MusicGenは、Metaが所有し特定のライセンスが付与された音楽で訓練されたため、テキスト入力に基づいて音楽を生成することができます。
  • AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。
  • EnCodecは、AIによるエンコーダ、量子化器、およびデコーダの3つを備えたものです。

AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。メタは、EnCodecデコーダの新しい改良版をリリースし、より少ないアーティファクトでより高品質な音楽生成が可能になります。また、事前訓練されたAudioGenモデルも提供され、犬の吠え声、車のクラクション、木製の床での足音などの環境音や効果音を生成するために使用することができます。さらに、AudioCraftモデルの重みとコードも提供されます。技術に興味のある研究者は、これらのモデルを使用することができます。メタは、研究者や実践者が初めてプラットフォームを利用できることを喜んでおり、彼ら自身のデータセットでモデルを訓練し、最先端に貢献することができます。

訓練された後、ユーザーが入力した単語に基づいて、現実的で高品質な音楽や効果音を生成することがあります。AudioCraftにはMusicGen、AudioGen、およびEnCodecの3つのモデルが含まれています。MusicGenとAudioGenは、それぞれの訓練セットに基づいてテキストから音楽や効果音を生成することができます。MusicGenはMeta独自の許可された音楽を使用し、AudioGenは公開された音響データセットを使用します。メタは2017年6月と10月に2つのモデル、MusicGenとAudioGenをリリースしました。

メタは、直感的なインターフェースを備えたAudioCraftがプロフェッショナルな音声を生成できると主張しています。彼らはまた、新しい手法を採用することで、現在の音声生成の最先端の設計を効率化すると主張しています。彼らは、AudioCraftがEnCodecニューラル音声コーデックを使用して生の音声データから意味のある情報を抽出する方法について詳細に説明しています。これにより、事前に決定された音楽サンプル(オーディオトークン)の「語彙」を自己回帰言語モデルに供給し、そのトークンの基盤構造を捉えることで、新しい音声言語モデルを訓練します。テキストの説明に基づいて生成されたトークンは、新しいモデルによって生成され、EnCodecデコーダに送られることで、音声や音楽の合成が可能になります。

メタは、AudioGenとMusicGenのモデルカードを作成し、モデルの開発方法についてドキュメント化し、さまざまなサイズで研究コミュニティに提供しています。また、オーディオ研究フレームワークとトレーニングコードは、MITライセンスの下で一般に公開されており、他の人が使用し、拡張することができます。メタは、より洗練されたコントロールが開発されれば、これらのモデルがアマチュアやプロのミュージシャンに役立つ可能性があると考えています。堅牢なオープンソースの基盤によって、効果音や劇的な音楽を伴うベッドタイムストーリーの朗読など、さまざまな可能性が考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ベストAI画像生成器(2023年7月)

多くのビジネスの景色が人工知能によって変わりつつあり、画像作成もその一つです。 AI画像生成器は、テキストをグラフィック...

人工知能

マーケティング予算の最適化方法

マーケティングミックスモデルは、異なるマーケティングチャネルが売上に与える影響を理解するための強力なツールですマーケ...

機械学習

MeLoDyとは:音楽合成のための効率的なテキストからオーディオへの拡散モデル

音楽は、調和、メロディ、リズムから成る芸術であり、人生のあらゆる面に浸透しています。深層生成モデルの発展に伴い、音楽...

データサイエンス

レコメンデーションシステムにおけるディープラーニング:入門

レコメンダーシステムは、現在最も急速に進化している産業用機械学習アプリケーションの一つですビジネス的な観点から見れば...

機械学習

RAGアプリケーションデザインにおける実用的な考慮事項

「RAG(Retrieval Augmented Generation)アーキテクチャは、LLMの入力長制限と知識切り上げの問題を効率的に克服することが...

データサイエンス

「Google Cloud Platformの探求:サービスと能力の包括的な概要」

この記事では、GCPが提供するさまざまなサービスについて詳しく説明し、クラウドコンピューティングの景色でのその重要性を強...