AI音楽のソース分離:その仕組みとなぜ難しいのか
AI音楽のソース分離:なぜ難しいのか
ソース分離AI、解説
ソース分離
ソース分離とは何ですか?
信号処理の分野では、ソース分離とは音声信号を複数のソース音声信号に分解するタスクを指します。この概念は音楽だけでなく、音声や機械の音にも関連しています。例えば、ポッドキャストの中で二人の話者の声を分けて編集したい場合などです。
ソース分離はなぜ難しいのですか?
誰もがミュージシャンではありませんし、データとAIの傾向を持つミュージシャンも少ないです。非ミュージシャンと話すとき、しばしば「声を取って音声から削除できるのではないか」と思っていると感じます。これは理にかなっています。なぜなら、アルバムのB面にインストゥルメンタルがあるのはなぜか、またどのパブでも人気曲のカラオケバージョンが何千もあるのかということです。実際には、ボーカルを楽器の音から分離するのは非常に簡単です — ミックスの個別トラックにアクセスできる場合は…
しかし、現実の世界では、私たちが持っているのは波形です。波形は、実際の物理的な音声イベントに最も近いコンピュータ表現です。波形はまた、デジタルオーディオを実際の音に戻すための前提条件でもあります。つまり、音楽の一部を二つのソース(ボーカルと楽器)に分離するには、結合された波形を二つの独立した波形に分割する方法を見つける必要があります。それぞれの波形が正確かつ独占的に一つのソースを捉えるようにします。
これを強調するために、以下の図には三つの波形があります。最初の波形はギターを表し、二番目の波形はギタートラックの上で歌われるボーカルを捉えています。三番目の波形はギターとボーカルの組み合わせ、つまりフルの曲です。
このトラックのプロデューサーとして、ボーカルと楽器を提供することは取るに足らない課題です。なぜなら、単純に両方のオリジナル録音を送るだけで済むからです。しかし、音楽の消費者として…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles