スタビリティAIが安定したオーディオを導入:テキストプロンプトからオーディオクリップを生成できる新しい人工知能モデル

スタビリティAIが安定したオーディオを導入

Stability AIは、画期的な技術であるStable Audioを発表しました。これは、オーディオ生成の分野における大きな進歩を示すものです。この革新的なソリューションは、簡単なテキストプロンプトからカスタムオーディオクリップを作成するという課題に取り組んでいます。Stability AIは、テキストから画像を生成する技術であるStable Diffusionで評判を得てきましたが、それらの専門知識を音楽とオーディオにも拡大しました。この開発は、Stable DiffusionのSDXLベースモデルを導入することで、画像作成への成功した進出に続いています。

これまで、ベースのオーディオトラックを生成することは、しばしばMIDIファイルを使用した「象徴的な生成」の技術によって可能でした。しかし、Stable Audioはこれを超えて、ユーザーが完全に新しい音楽作品を作り上げることを可能にし、MIDIや象徴的な生成によってよく見られる反復的な音符の制約から解放します。この成果は、モデルが生のオーディオサンプルと直接対話することによる優れた出力品質に起因しています。モデルのトレーニングには、AudioSparksライブラリからの80万以上のライセンス付き音楽が含まれており、その堅牢なパフォーマンスに貢献しています。この豊富なデータセットは、高品質のオーディオを保証し、テキストベースのモデルにおいて重要な要素である包括的なメタデータを提供します。

特定のアーティストのスタイルをエミュレートできる画像生成モデルとは異なり、Stable Audioは、The Beatlesなどの伝説的なバンドのようなスタイルを模倣することを試みません。この意図的な選択は、ミュージシャンが固定されたスタイルの制約なしで創造的な旅に乗り出すことを望んでいるという理解に基づいています。代わりに、Stable Audioはユーザーに独自の音楽表現を探求する力を与えます。

Stable Audioモデルは、約12億のパラメータを持つ拡散モデルであり、画像生成のための元々のStable Diffusionモデルに匹敵します。オーディオ生成に欠かせないテキストプロンプトは、Stability AIによって厳密に開発され、Contrastive Language Audio Pretraining(CLAP)技術を使用してトレーニングされました。効果的なプロンプトの作成を支援するために、Stability AIはStable Audioのリリースと同時にプロンプトガイドを公開しています。

Stable Audioは、無料版と月額$12のプロプランの2つのバージョンで利用可能になります。無料版では、月間最大20回の生成が可能で、それぞれ最大20秒のトラックを生成します。一方、プロ版はこれらの制限を拡張し、500回の生成と90秒のトラックの再生が可能です。

まとめると、Stability AIのStable Audioのリリースは、オーディオ生成技術の新時代の幕開けを告げています。同社は、高度なAI技術を活用してテキストプロンプトをオリジナルのオーディオクリップに変換するためのシームレスなプラットフォームを提供しました。この革新は、創造的な表現の可能性を示し、AIによる音楽とオーディオ制作ソリューションの潜在能力を実証しています。アクセスしやすい価格設定により、Stable Audioはアスピリングやプロのオーディオクリエイターにとって貴重なツールとなるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「条件付き生成敵対的ネットワークとは何ですか?」

CGAN(Conditional Generative Adversarial Networks)は、特定のパラメータやラベルをGANに組み込むことで、データ作成プロ...

AIニュース

「GPT-4とXGBoost 2.0の詳細な情報:AIの新たなフロンティア」

イントロダクション AIは、GPT-4などのLLMの出現により、人間の言語の理解と生成を革新し、大きな変化を経験しています。同時...

AIニュース

「生成AIにおける高度なエンコーダとデコーダの力」

はじめに 人工知能のダイナミックな領域では、技術と創造性の融合が人間の想像力の限界を押し上げる革新的なツールを生み出し...

機械学習

チューリングテスト、中国の部屋、そして大規模言語モデル

チューリングテストは、AIの分野での古典的なアイデアですもともとは模倣ゲームと呼ばれ、アラン・チューリングは1950年に自...

機械学習

PaLM-Eをご紹介します:新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します

大容量の言語モデル(LLM)は、会話、ステップバイステップの推論、数学の問題解決、コードの作成など、さまざまな分野で強力...