スタビリティAIが安定したオーディオを導入:テキストプロンプトからオーディオクリップを生成できる新しい人工知能モデル

スタビリティAIが安定したオーディオを導入

Stability AIは、画期的な技術であるStable Audioを発表しました。これは、オーディオ生成の分野における大きな進歩を示すものです。この革新的なソリューションは、簡単なテキストプロンプトからカスタムオーディオクリップを作成するという課題に取り組んでいます。Stability AIは、テキストから画像を生成する技術であるStable Diffusionで評判を得てきましたが、それらの専門知識を音楽とオーディオにも拡大しました。この開発は、Stable DiffusionのSDXLベースモデルを導入することで、画像作成への成功した進出に続いています。

これまで、ベースのオーディオトラックを生成することは、しばしばMIDIファイルを使用した「象徴的な生成」の技術によって可能でした。しかし、Stable Audioはこれを超えて、ユーザーが完全に新しい音楽作品を作り上げることを可能にし、MIDIや象徴的な生成によってよく見られる反復的な音符の制約から解放します。この成果は、モデルが生のオーディオサンプルと直接対話することによる優れた出力品質に起因しています。モデルのトレーニングには、AudioSparksライブラリからの80万以上のライセンス付き音楽が含まれており、その堅牢なパフォーマンスに貢献しています。この豊富なデータセットは、高品質のオーディオを保証し、テキストベースのモデルにおいて重要な要素である包括的なメタデータを提供します。

特定のアーティストのスタイルをエミュレートできる画像生成モデルとは異なり、Stable Audioは、The Beatlesなどの伝説的なバンドのようなスタイルを模倣することを試みません。この意図的な選択は、ミュージシャンが固定されたスタイルの制約なしで創造的な旅に乗り出すことを望んでいるという理解に基づいています。代わりに、Stable Audioはユーザーに独自の音楽表現を探求する力を与えます。

Stable Audioモデルは、約12億のパラメータを持つ拡散モデルであり、画像生成のための元々のStable Diffusionモデルに匹敵します。オーディオ生成に欠かせないテキストプロンプトは、Stability AIによって厳密に開発され、Contrastive Language Audio Pretraining(CLAP)技術を使用してトレーニングされました。効果的なプロンプトの作成を支援するために、Stability AIはStable Audioのリリースと同時にプロンプトガイドを公開しています。

Stable Audioは、無料版と月額$12のプロプランの2つのバージョンで利用可能になります。無料版では、月間最大20回の生成が可能で、それぞれ最大20秒のトラックを生成します。一方、プロ版はこれらの制限を拡張し、500回の生成と90秒のトラックの再生が可能です。

まとめると、Stability AIのStable Audioのリリースは、オーディオ生成技術の新時代の幕開けを告げています。同社は、高度なAI技術を活用してテキストプロンプトをオリジナルのオーディオクリップに変換するためのシームレスなプラットフォームを提供しました。この革新は、創造的な表現の可能性を示し、AIによる音楽とオーディオ制作ソリューションの潜在能力を実証しています。アクセスしやすい価格設定により、Stable Audioはアスピリングやプロのオーディオクリエイターにとって貴重なツールとなるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

プロンプトからテキストを生成するためのモデルの作成

導入 急速に進化するGenerative AIの風景において、新たな時代が訪れました。この変革的なシフトにより、AIアプリケーション...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

人工知能

カートゥーンキャラクターの中間プロンプト

Midjourneyは、芸術的なスキルや背景がなくても、漫画キャラクターを作成するのに役立つ素晴らしいツールです

データサイエンス

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、...

人工知能

RGBビデオから3Dビデオを作成する

「私は常に、私たちがデジタルな思い出を2Dの形式でアーカイブしていることに不満を感じてきました写真やビデオは鮮明さに欠...

機械学習

トランスフォーマーにおけるセルフアテンション

「初心者にやさしいセルフアテンションガイドセルフアテンションは、AIの現在の進歩の中で鍵となる「トランスフォーマー」の...