メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

MetaAI has open-sourced AudioCraft, a PyTorch library for deep learning research on audio generation.

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudioCraftのリリースを行いました。開発のためのAudioCraftフレームワークを構成する3つのモデルは、MusicGen、AudioGen、およびEnCodecです。

  • MusicGenは、Metaが所有し特定のライセンスが付与された音楽で訓練されたため、テキスト入力に基づいて音楽を生成することができます。
  • AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。
  • EnCodecは、AIによるエンコーダ、量子化器、およびデコーダの3つを備えたものです。

AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。メタは、EnCodecデコーダの新しい改良版をリリースし、より少ないアーティファクトでより高品質な音楽生成が可能になります。また、事前訓練されたAudioGenモデルも提供され、犬の吠え声、車のクラクション、木製の床での足音などの環境音や効果音を生成するために使用することができます。さらに、AudioCraftモデルの重みとコードも提供されます。技術に興味のある研究者は、これらのモデルを使用することができます。メタは、研究者や実践者が初めてプラットフォームを利用できることを喜んでおり、彼ら自身のデータセットでモデルを訓練し、最先端に貢献することができます。

訓練された後、ユーザーが入力した単語に基づいて、現実的で高品質な音楽や効果音を生成することがあります。AudioCraftにはMusicGen、AudioGen、およびEnCodecの3つのモデルが含まれています。MusicGenとAudioGenは、それぞれの訓練セットに基づいてテキストから音楽や効果音を生成することができます。MusicGenはMeta独自の許可された音楽を使用し、AudioGenは公開された音響データセットを使用します。メタは2017年6月と10月に2つのモデル、MusicGenとAudioGenをリリースしました。

メタは、直感的なインターフェースを備えたAudioCraftがプロフェッショナルな音声を生成できると主張しています。彼らはまた、新しい手法を採用することで、現在の音声生成の最先端の設計を効率化すると主張しています。彼らは、AudioCraftがEnCodecニューラル音声コーデックを使用して生の音声データから意味のある情報を抽出する方法について詳細に説明しています。これにより、事前に決定された音楽サンプル(オーディオトークン)の「語彙」を自己回帰言語モデルに供給し、そのトークンの基盤構造を捉えることで、新しい音声言語モデルを訓練します。テキストの説明に基づいて生成されたトークンは、新しいモデルによって生成され、EnCodecデコーダに送られることで、音声や音楽の合成が可能になります。

メタは、AudioGenとMusicGenのモデルカードを作成し、モデルの開発方法についてドキュメント化し、さまざまなサイズで研究コミュニティに提供しています。また、オーディオ研究フレームワークとトレーニングコードは、MITライセンスの下で一般に公開されており、他の人が使用し、拡張することができます。メタは、より洗練されたコントロールが開発されれば、これらのモデルがアマチュアやプロのミュージシャンに役立つ可能性があると考えています。堅牢なオープンソースの基盤によって、効果音や劇的な音楽を伴うベッドタイムストーリーの朗読など、さまざまな可能性が考えられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Amazon SageMakerとSalesforce Data Cloudの統合を使用して、SalesforceアプリをAI/MLで強化しましょう」

この投稿は、Salesforce Einstein AIの製品ディレクターであるダリル・マーティスと共同執筆されたものですこれは、Salesforc...

AIニュース

ロボ犬が100メートル走のギネス世界記録を樹立

ギネスワールドレコーズは、韓国科学技術院のチームが作成した犬のようなロボットを、最速の四足歩行ロボットと認定しました

機械学習

「AI時代における学術的誠実性の再考:ChatGPTと32のコースの大学生の比較分析」

機械学習アルゴリズムを使用して以前に作成されたテキスト、音声、または視覚情報を元に新しいコンテンツを生成する人工知能...

機械学習

中国のこのAI論文は、ダイナミックなSLAM環境における革新的な時間変動NeRFアプローチを紹介しています:トラッキングとマッピングの精度を向上させる

コンピュータビジョンとロボット工学において、同時の位置推定と地図作成(SLAM)システムは、機械が周囲の環境をナビゲート...

人工知能

2023年の最高のAI販売アシスタントツール

人工知能の営業アシスタントソリューションは、バーチャル営業アシスタントとしても知られ、様々な業務を自動化することで営...

機械学習

「Flowsに会いましょう:複雑なAI-Humanの相互作用をモデル化するための革命的なAIフレームワーク」

人工知能の最近の進歩により、コンテキスト内の情報に驚くほど適応することができるため、構造化された推論の多くの機会が生...