AI音楽のソース分離:その仕組みとなぜ難しいのか

AI音楽のソース分離:なぜ難しいのか

ソース分離AI、解説

Image by Author.

ソース分離

ソース分離とは何ですか?

信号処理の分野では、ソース分離とは音声信号を複数のソース音声信号に分解するタスクを指します。この概念は音楽だけでなく、音声や機械の音にも関連しています。例えば、ポッドキャストの中で二人の話者の声を分けて編集したい場合などです。

ソース分離はなぜ難しいのですか?

誰もがミュージシャンではありませんし、データとAIの傾向を持つミュージシャンも少ないです。非ミュージシャンと話すとき、しばしば「声を取って音声から削除できるのではないか」と思っていると感じます。これは理にかなっています。なぜなら、アルバムのB面にインストゥルメンタルがあるのはなぜか、またどのパブでも人気曲のカラオケバージョンが何千もあるのかということです。実際には、ボーカルを楽器の音から分離するのは非常に簡単です — ミックスの個別トラックにアクセスできる場合は…

しかし、現実の世界では、私たちが持っているのは波形です。波形は、実際の物理的な音声イベントに最も近いコンピュータ表現です。波形はまた、デジタルオーディオを実際の音に戻すための前提条件でもあります。つまり、音楽の一部を二つのソース(ボーカルと楽器)に分離するには、結合された波形を二つの独立した波形に分割する方法を見つける必要があります。それぞれの波形が正確かつ独占的に一つのソースを捉えるようにします。

これを強調するために、以下の図には三つの波形があります。最初の波形はギターを表し、二番目の波形はギタートラックの上で歌われるボーカルを捉えています。三番目の波形はギターとボーカルの組み合わせ、つまりフルの曲です。

Waveforms of a guitar and vocals. Image by author.

このトラックのプロデューサーとして、ボーカルと楽器を提供することは取るに足らない課題です。なぜなら、単純に両方のオリジナル録音を送るだけで済むからです。しかし、音楽の消費者として…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...