聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

美とファッションの専門家による、聴覚処理の解読:深層学習モデルと脳内音声認識の驚くべき類似性

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化されます。これには、主要および非主要の聴覚皮質領域、聴覚神経、および底皮質構造が含まれます。環境の状況や言語的知覚単位に対する変化する音声信号のため、自然言語の知覚は困難な課題です。古典的な認知モデルは、音声の多くの心理的特徴を説明できますが、これらのモデルは脳の符号化と自然言語の認識を説明するのに不十分です。深層学習モデルは、自動音声認識で人間の性能に近づいています。

AIモデルの解釈可能性を向上させ、感覚知覚の新たなデータ駆動型計算モデルを提供するため、カリフォルニア大学サンフランシスコ校の研究者たちは、深層学習モデルの計算と表現を人間の聴覚系の神経応答と関連付けることを目指しています。この研究では、人間の聴覚回路と最先端の音声ニューラルネットワークモデル間の共通の表現と計算を特定することを目指しています。分析は、昇順聴覚経路に沿って正確な音声に対するニューラル応答に相関する深層ニューラルネットワーク(DNN)音声埋め込みに焦点を当て、ニューラル符号化のためのフレームワークを使用して行われます。

聴覚回路と異なる計算アーキテクチャ(畳み込み、再帰、セルフアテンション)および訓練手法(教師ありおよび教師なしの目標)を持つディープニューラルネットワーク(DNN)モデルを比較する方法論的な手法が用いられます。さらに、DNNの計算の調査は、ニューラル符号化予測の基本的なプロセスに関する情報を提供します。これまでのモデリング試みは、主に英語を中心とした単一の言語に焦点を当てていましたが、この研究では、言語固有および言語非依存の音声知覚の特徴をクロスリンガルパラダイムを使用して明らかにします。

先端のDNNがヒトの聴覚系で鍵となる情報処理要素に近く獲得される音声表現方法を示し、DNN特徴表現が真実の音声に対するニューロンの応答を予測する際に、理論に基づく音響-音声的特徴セットよりも優れた性能を発揮することが研究で明らかにされました。さらに、DNNにおける基本的な文脈処理を調査しました。彼らは完全に教師なしの自然言語のトレーニングが、これらのネットワークが音素や音節の文脈など、言語に特有なリンギスティックな情報を獲得する方法であることを発見しました。この言語固有の言語情報を獲得する能力は、非主要聴覚皮質におけるDNN-ニューラル符号化の相関を予測します。線形STRFモデルは、クロス言語知覚時のSTGにおける言語固有の符号化を明らかにすることはできませんが、ディープラーニングベースのニューラル符号化モデルはできます。

まとめると、

比較的な方法論を用いて、研究者たちは、音声学習用ディープニューラルネットワーク(DNN)と人間の聴覚システム間に重要な表現的および計算的類似性を示しています。神経科学の観点から見ると、古典的な特徴ベースの符号化モデルは、統計的構造からの中間音声特性を抽出するためにデータ駆動型計算モデルによって超えられます。神経応答と選択性との対照により、AIの観点からDNNの「ブラックボックス」表現を理解する手段を提供します。彼らは現代のDNNが、ヒトの聴覚システムが情報を処理する方法に似た表現方法を選んだ可能性を示しています。研究者によれば、将来の研究では、より幅広い範囲のAIモデルとさらに多様な人口を使用してこれらの結果を調査し、検証することができるでしょう。

The post Deciphering Auditory Processing: How Deep Learning Models Mirror Human Speech Recognition in the Brain appeared first on MarkTechPost.

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

データサイエンス

「Apache CassandraとApache Pulsarを使用した製品推薦エンジンの構築」

仮説上の請負業者がApache PulsarとApache Cassandraを使用してAIの加速化を行った方法この記事ではAI/MLへの道のりの重要な...

データサイエンス

グラフニューラルネットワークによるローマ数字の分析

『この記事では、自動和声分析のモデル開発の過程を説明したいと思います個人的には音楽を深く理解することに興味があります...

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...

機械学習

「FastEmbedをご紹介:高速かつ軽量なテキスト埋め込み生成のためのPythonライブラリ」

言葉やフレーズは、埋め込みを使用して高次元空間で効果的に表現することができます。これは、自然言語処理(NLP)の分野で重...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...