「Brain2Musicに会ってください:機能的磁気共鳴画像法(fMRI)を用いた脳活動から音楽を再構築するためのAI手法」
AI method using functional magnetic resonance imaging (fMRI) to reconstruct music from brain activity Meet Brain2Music.
音楽が好きな人は誰でもいますよね?曲のリズムを覚えているけれど歌詞が思い出せず、曲の名前が分からないことはありませんか?Googleと大阪大学の研究者たちは、機能的磁気共鳴画像法(fMRI)を使用して、脳活動から音楽を再構築する方法を見つけました。ジャンル、楽器、ムードに基づいて音楽が生成されます。
Googleと大阪大学の研究者は、fMRIスキャンなどの特徴から深層ニューラルネットワークを使用して、高レベルで意味的に構造化された音楽を予測することで音楽を生成しています。人間の聴覚皮質の活動に基づいて、音楽のさまざまな要素を予測することができます。研究者たちは、予測可能なアーティファクトから成る高い時間的結束性を持つ音楽を生成するJukeBoxを実験しました。また、高品質な再構成を伴う低ビットレートの圧縮ニューラルオーディオコーデックを使用して、高品質の音声を生成しています。
fMRIから音楽を生成するには、音楽埋め込みを選択することによる音楽表現を含む中間段階が必要です。彼らが使用したアーキテクチャには、次の音楽生成に対してボトルネックとなる音楽埋め込みが含まれています。予測された音楽埋め込みが被験者が聞いたオリジナルの刺激の音楽埋め込みに近い場合、MusicLM(音楽生成モデル)を使用してオリジナルの刺激に似た音楽を生成します。
- 「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」
- 新しい技術の詳細なコース:AWS上の生成AIの基礎
- 「LLMの内部構造:言語モデルアーキテクチャの詳細な解説」
音楽生成モデルMusicLMは、MuLanとw2v-BERT-avgという名前のオーディオ派生の埋め込みを含んでいます。2つの埋め込みのうち、MuLanは人間の脳での高レベルの音楽情報処理を捉えるため、側頭前皮質で高い予測性能を示す傾向があります。音楽に関する抽象的な情報は、オーディオ派生の埋め込みと比較して聴覚皮質で異なる形で表現されます。
MuLanの埋め込みは、生成モデルを使用して音楽に変換されます。埋め込みに含まれていない情報は、モデル内で再獲得されます。検索技術では、再構成も音楽的であり、音楽のデータセットから直接引き出されます。これにより、より高い再構成品質が確保されます。研究者たちは、fMRI応答データから線形回帰を使用します。この方法には、fMRIデータからの線形回帰の正確な情報量に不確実性があるという制約もあります。
研究者は、将来の課題として、個人の想像から音楽を再構築することを挙げています。ユーザーが音楽の断片を想像すると、デコーディング分析はその想像がどれだけ忠実に再構築できるかを調べます。これは実際のマインドリーディングのレベルに該当します。異なる音楽の専門知識を持つ多様な対象が存在し、比較による複数の再構成特性が必要です。プロの音楽家を含む被験者間での再構成品質の比較は、彼らの視点と理解の違いに関する有益な見識を提供することができます。
彼らの研究は、純粋で想像力に満ちた思考を具現化するための最初の一歩に過ぎません。これはまた、被験者の心の中の純粋な想像からホログラムを生成することにもつながるでしょう。この分野の進歩は、生物学的な観点からの定量的な解釈を提供することにもなります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles