スタビリティAIが安定したオーディオを導入:テキストプロンプトからオーディオクリップを生成できる新しい人工知能モデル
スタビリティAIが安定したオーディオを導入
Stability AIは、画期的な技術であるStable Audioを発表しました。これは、オーディオ生成の分野における大きな進歩を示すものです。この革新的なソリューションは、簡単なテキストプロンプトからカスタムオーディオクリップを作成するという課題に取り組んでいます。Stability AIは、テキストから画像を生成する技術であるStable Diffusionで評判を得てきましたが、それらの専門知識を音楽とオーディオにも拡大しました。この開発は、Stable DiffusionのSDXLベースモデルを導入することで、画像作成への成功した進出に続いています。
これまで、ベースのオーディオトラックを生成することは、しばしばMIDIファイルを使用した「象徴的な生成」の技術によって可能でした。しかし、Stable Audioはこれを超えて、ユーザーが完全に新しい音楽作品を作り上げることを可能にし、MIDIや象徴的な生成によってよく見られる反復的な音符の制約から解放します。この成果は、モデルが生のオーディオサンプルと直接対話することによる優れた出力品質に起因しています。モデルのトレーニングには、AudioSparksライブラリからの80万以上のライセンス付き音楽が含まれており、その堅牢なパフォーマンスに貢献しています。この豊富なデータセットは、高品質のオーディオを保証し、テキストベースのモデルにおいて重要な要素である包括的なメタデータを提供します。
特定のアーティストのスタイルをエミュレートできる画像生成モデルとは異なり、Stable Audioは、The Beatlesなどの伝説的なバンドのようなスタイルを模倣することを試みません。この意図的な選択は、ミュージシャンが固定されたスタイルの制約なしで創造的な旅に乗り出すことを望んでいるという理解に基づいています。代わりに、Stable Audioはユーザーに独自の音楽表現を探求する力を与えます。
- 「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」
- 機械学習、イラストで解説:インクリメンタル学習
- 「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」
Stable Audioモデルは、約12億のパラメータを持つ拡散モデルであり、画像生成のための元々のStable Diffusionモデルに匹敵します。オーディオ生成に欠かせないテキストプロンプトは、Stability AIによって厳密に開発され、Contrastive Language Audio Pretraining(CLAP)技術を使用してトレーニングされました。効果的なプロンプトの作成を支援するために、Stability AIはStable Audioのリリースと同時にプロンプトガイドを公開しています。
Stable Audioは、無料版と月額$12のプロプランの2つのバージョンで利用可能になります。無料版では、月間最大20回の生成が可能で、それぞれ最大20秒のトラックを生成します。一方、プロ版はこれらの制限を拡張し、500回の生成と90秒のトラックの再生が可能です。
まとめると、Stability AIのStable Audioのリリースは、オーディオ生成技術の新時代の幕開けを告げています。同社は、高度なAI技術を活用してテキストプロンプトをオリジナルのオーディオクリップに変換するためのシームレスなプラットフォームを提供しました。この革新は、創造的な表現の可能性を示し、AIによる音楽とオーディオ制作ソリューションの潜在能力を実証しています。アクセスしやすい価格設定により、Stable Audioはアスピリングやプロのオーディオクリエイターにとって貴重なツールとなるでしょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles