メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

MetaAI has open-sourced AudioCraft, a PyTorch library for deep learning research on audio generation.

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudioCraftのリリースを行いました。開発のためのAudioCraftフレームワークを構成する3つのモデルは、MusicGen、AudioGen、およびEnCodecです。

  • MusicGenは、Metaが所有し特定のライセンスが付与された音楽で訓練されたため、テキスト入力に基づいて音楽を生成することができます。
  • AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。
  • EnCodecは、AIによるエンコーダ、量子化器、およびデコーダの3つを備えたものです。

AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。メタは、EnCodecデコーダの新しい改良版をリリースし、より少ないアーティファクトでより高品質な音楽生成が可能になります。また、事前訓練されたAudioGenモデルも提供され、犬の吠え声、車のクラクション、木製の床での足音などの環境音や効果音を生成するために使用することができます。さらに、AudioCraftモデルの重みとコードも提供されます。技術に興味のある研究者は、これらのモデルを使用することができます。メタは、研究者や実践者が初めてプラットフォームを利用できることを喜んでおり、彼ら自身のデータセットでモデルを訓練し、最先端に貢献することができます。

訓練された後、ユーザーが入力した単語に基づいて、現実的で高品質な音楽や効果音を生成することがあります。AudioCraftにはMusicGen、AudioGen、およびEnCodecの3つのモデルが含まれています。MusicGenとAudioGenは、それぞれの訓練セットに基づいてテキストから音楽や効果音を生成することができます。MusicGenはMeta独自の許可された音楽を使用し、AudioGenは公開された音響データセットを使用します。メタは2017年6月と10月に2つのモデル、MusicGenとAudioGenをリリースしました。

メタは、直感的なインターフェースを備えたAudioCraftがプロフェッショナルな音声を生成できると主張しています。彼らはまた、新しい手法を採用することで、現在の音声生成の最先端の設計を効率化すると主張しています。彼らは、AudioCraftがEnCodecニューラル音声コーデックを使用して生の音声データから意味のある情報を抽出する方法について詳細に説明しています。これにより、事前に決定された音楽サンプル(オーディオトークン)の「語彙」を自己回帰言語モデルに供給し、そのトークンの基盤構造を捉えることで、新しい音声言語モデルを訓練します。テキストの説明に基づいて生成されたトークンは、新しいモデルによって生成され、EnCodecデコーダに送られることで、音声や音楽の合成が可能になります。

メタは、AudioGenとMusicGenのモデルカードを作成し、モデルの開発方法についてドキュメント化し、さまざまなサイズで研究コミュニティに提供しています。また、オーディオ研究フレームワークとトレーニングコードは、MITライセンスの下で一般に公開されており、他の人が使用し、拡張することができます。メタは、より洗練されたコントロールが開発されれば、これらのモデルがアマチュアやプロのミュージシャンに役立つ可能性があると考えています。堅牢なオープンソースの基盤によって、効果音や劇的な音楽を伴うベッドタイムストーリーの朗読など、さまざまな可能性が考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「中小企業オーナーが未来に向けて前向きになる 過半数が生成型AIを採用すると発表」と言われています

アンケートによると、3人中2人のビジネスオーナーが次の12ヶ月でこの技術を試す予定です44%の人々はAIの導入により従業員を...

データサイエンス

LMQL — 言語モデル用のSQL

「SQLについて聞いたことがあるか、あるいはスキルを習得したことがあるはずですSQL(Structured Query Language)はデータベ...

機械学習

「Amazon SageMakerを使用して数百のモデルにスケールされたファウンデーションモデルの推論 - パート1」

「ファンデーションモデル(FM)の民主化が一般化し、AIを活用したサービスへの需要が増加するにつれ、ソフトウェアプロバイ...

AIニュース

「AIは非英語母国語話者に差別的」

最近の研究で、人工知能(AI)について不安な真実が明らかになりました。エッセイや就職応募書類などの作品を検出するために...

AIニュース

「OpenAIがユーザーエクスペリエンスを革新するために6つのエキサイティングなChatGPT機能を発表」

ChatGPTを開発した先進的な企業であるOpenAIは、6つのエキサイティングな新機能を追加し、ユーザーエクスペリエンスを向上さ...

データサイエンス

「AIがあなたの問題を解決できるでしょうか?」

「AIの能力を製品やサービスに組み込むことを目指す製品企業では、AIに詳しくない人々をAIの流れに乗せるという課題が常に存...