スタビリティAIによるステーブルオーディオはどのように機能するのでしょうか?

『スタビリティAIによるステーブルオーディオの仕組みとは?』

素晴らしい音楽を生成する新しいAI!

louisbouchard.aiで最初に公開され、2日前に私のブログで読めるようになりました。

ビデオを見る:

AIがすでに素晴らしい音楽を作り出すことを知っていますか?

そうです、そうなんです。研究の文脈では、自分でコーディングすることもできますが、わずかなテキストの説明を入力するだけで音楽のサンプルを手に入れることができるウェブサイトもあります!そして、最高のことは、1か月に最大20回まで無料で試すことができることです!実際に、Stable Diffusionの同じチームが最近リリースした「Stable Audio」があります。Stable Audioは、Stability AIによって非常に似た方法で機能し、テキストを理解し、それらの抽象的な言葉を音楽の表現に変換することができます。まるでイメージのためにStable Diffusionが行うようにです。しかも、無料で使えるだけでなく、彼らは実現方法も公開していますので、さっそく見てみましょう!

私のチャンネルでも何度もご紹介してきたように、特に画像や他の複雑な信号を含む多くの新しい生成アプローチは、拡散ネットワークと呼ばれるアプローチに基づいています。それが、まさにStable Diffusionです。

なぜこれが重要なのか?Stable Diffusionを再び取り上げる理由は2つあります。まず、拡散モデルはノイズを取り入れ、それに基づいて出力を生成する強力なネットワークです。これは、モデルを逆方向に訓練し、画像を開始点にして少しずつ画像を完全にノイズに変換し、それをどのように変換したかをモデルに教えることで実現できます。何百万回もの試行と例を通じて、モデルはノイズのパターンを学び、ノイズをフルに活用して画像のような入力を構築することができます。

イメージからイメージへのスタイル転送アプリケーションの拡散プロセス(スケッチを入力、実際の画像が出力)

しかし、ここには音声について話しているので、これが関連する理由は何でしょうか?実際には、音声は画像と非常に似ています。音声は、周波数コンテンツの時間にわたるすべての視覚的表現であるマグニチュードスペクトログラムに変換することができます。x軸は時間を示しています…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

人工知能

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

ジェフ・コーフマンは、ABC、CBS、CBCニュースで30年のキャリアを持った後、Trintの創設者兼CEOとなりましたジェフは手作業の...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...