メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

MetaAI has open-sourced AudioCraft, a PyTorch library for deep learning research on audio generation.

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudioCraftのリリースを行いました。開発のためのAudioCraftフレームワークを構成する3つのモデルは、MusicGen、AudioGen、およびEnCodecです。

  • MusicGenは、Metaが所有し特定のライセンスが付与された音楽で訓練されたため、テキスト入力に基づいて音楽を生成することができます。
  • AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。
  • EnCodecは、AIによるエンコーダ、量子化器、およびデコーダの3つを備えたものです。

AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。メタは、EnCodecデコーダの新しい改良版をリリースし、より少ないアーティファクトでより高品質な音楽生成が可能になります。また、事前訓練されたAudioGenモデルも提供され、犬の吠え声、車のクラクション、木製の床での足音などの環境音や効果音を生成するために使用することができます。さらに、AudioCraftモデルの重みとコードも提供されます。技術に興味のある研究者は、これらのモデルを使用することができます。メタは、研究者や実践者が初めてプラットフォームを利用できることを喜んでおり、彼ら自身のデータセットでモデルを訓練し、最先端に貢献することができます。

訓練された後、ユーザーが入力した単語に基づいて、現実的で高品質な音楽や効果音を生成することがあります。AudioCraftにはMusicGen、AudioGen、およびEnCodecの3つのモデルが含まれています。MusicGenとAudioGenは、それぞれの訓練セットに基づいてテキストから音楽や効果音を生成することができます。MusicGenはMeta独自の許可された音楽を使用し、AudioGenは公開された音響データセットを使用します。メタは2017年6月と10月に2つのモデル、MusicGenとAudioGenをリリースしました。

メタは、直感的なインターフェースを備えたAudioCraftがプロフェッショナルな音声を生成できると主張しています。彼らはまた、新しい手法を採用することで、現在の音声生成の最先端の設計を効率化すると主張しています。彼らは、AudioCraftがEnCodecニューラル音声コーデックを使用して生の音声データから意味のある情報を抽出する方法について詳細に説明しています。これにより、事前に決定された音楽サンプル(オーディオトークン)の「語彙」を自己回帰言語モデルに供給し、そのトークンの基盤構造を捉えることで、新しい音声言語モデルを訓練します。テキストの説明に基づいて生成されたトークンは、新しいモデルによって生成され、EnCodecデコーダに送られることで、音声や音楽の合成が可能になります。

メタは、AudioGenとMusicGenのモデルカードを作成し、モデルの開発方法についてドキュメント化し、さまざまなサイズで研究コミュニティに提供しています。また、オーディオ研究フレームワークとトレーニングコードは、MITライセンスの下で一般に公開されており、他の人が使用し、拡張することができます。メタは、より洗練されたコントロールが開発されれば、これらのモデルがアマチュアやプロのミュージシャンに役立つ可能性があると考えています。堅牢なオープンソースの基盤によって、効果音や劇的な音楽を伴うベッドタイムストーリーの朗読など、さまざまな可能性が考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「生成AIにおけるニューラル微分方程式の探索」

はじめに 生成AIは大きく進化し、新しい多様なデータを生成するためのさまざまな技術が含まれるようになりました。GANやVAEな...

AIニュース

「2023年のトップ18のAIベースのウェブサイトビルダー」

10Web ウェブサイトオーナーが効果的にウェブサイトを作成および管理するために、10WebはAIによって駆動するWordPressプラッ...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...

機械学習

「トランスフォーマベースのLLMがパラメータから知識を抽出する方法」

近年、トランスフォーマーベースの大規模言語モデル(LLM)が、事実の知識を捉えて保存する能力を持つため非常に人気がありま...

機械学習

Amazon Textract による強化されたテーブル抽出の発表

Amazon Textractは、どんなドキュメントや画像からも自動的にテキスト、手書き文字、およびデータを抽出する機械学習(ML)サ...