聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか
美とファッションの専門家による、聴覚処理の解読:深層学習モデルと脳内音声認識の驚くべき類似性
研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化されます。これには、主要および非主要の聴覚皮質領域、聴覚神経、および底皮質構造が含まれます。環境の状況や言語的知覚単位に対する変化する音声信号のため、自然言語の知覚は困難な課題です。古典的な認知モデルは、音声の多くの心理的特徴を説明できますが、これらのモデルは脳の符号化と自然言語の認識を説明するのに不十分です。深層学習モデルは、自動音声認識で人間の性能に近づいています。
AIモデルの解釈可能性を向上させ、感覚知覚の新たなデータ駆動型計算モデルを提供するため、カリフォルニア大学サンフランシスコ校の研究者たちは、深層学習モデルの計算と表現を人間の聴覚系の神経応答と関連付けることを目指しています。この研究では、人間の聴覚回路と最先端の音声ニューラルネットワークモデル間の共通の表現と計算を特定することを目指しています。分析は、昇順聴覚経路に沿って正確な音声に対するニューラル応答に相関する深層ニューラルネットワーク(DNN)音声埋め込みに焦点を当て、ニューラル符号化のためのフレームワークを使用して行われます。
聴覚回路と異なる計算アーキテクチャ(畳み込み、再帰、セルフアテンション)および訓練手法(教師ありおよび教師なしの目標)を持つディープニューラルネットワーク(DNN)モデルを比較する方法論的な手法が用いられます。さらに、DNNの計算の調査は、ニューラル符号化予測の基本的なプロセスに関する情報を提供します。これまでのモデリング試みは、主に英語を中心とした単一の言語に焦点を当てていましたが、この研究では、言語固有および言語非依存の音声知覚の特徴をクロスリンガルパラダイムを使用して明らかにします。
- 新しいツールと機能の発表:責任あるAIイノベーションを可能にする
- Amazon SageMakerノートブックのジョブをスケジュールし、APIを使用してマルチステップノートブックのワークフローを管理します
- AWS ジェネラティブ AI イノベーションセンターのアンソロポジック・クロード向けのカスタムモデルプログラムをご紹介します
先端のDNNがヒトの聴覚系で鍵となる情報処理要素に近く獲得される音声表現方法を示し、DNN特徴表現が真実の音声に対するニューロンの応答を予測する際に、理論に基づく音響-音声的特徴セットよりも優れた性能を発揮することが研究で明らかにされました。さらに、DNNにおける基本的な文脈処理を調査しました。彼らは完全に教師なしの自然言語のトレーニングが、これらのネットワークが音素や音節の文脈など、言語に特有なリンギスティックな情報を獲得する方法であることを発見しました。この言語固有の言語情報を獲得する能力は、非主要聴覚皮質におけるDNN-ニューラル符号化の相関を予測します。線形STRFモデルは、クロス言語知覚時のSTGにおける言語固有の符号化を明らかにすることはできませんが、ディープラーニングベースのニューラル符号化モデルはできます。
まとめると、
比較的な方法論を用いて、研究者たちは、音声学習用ディープニューラルネットワーク(DNN)と人間の聴覚システム間に重要な表現的および計算的類似性を示しています。神経科学の観点から見ると、古典的な特徴ベースの符号化モデルは、統計的構造からの中間音声特性を抽出するためにデータ駆動型計算モデルによって超えられます。神経応答と選択性との対照により、AIの観点からDNNの「ブラックボックス」表現を理解する手段を提供します。彼らは現代のDNNが、ヒトの聴覚システムが情報を処理する方法に似た表現方法を選んだ可能性を示しています。研究者によれば、将来の研究では、より幅広い範囲のAIモデルとさらに多様な人口を使用してこれらの結果を調査し、検証することができるでしょう。
The post Deciphering Auditory Processing: How Deep Learning Models Mirror Human Speech Recognition in the Brain appeared first on MarkTechPost.
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- GPUマシンの構築 vs GPUクラウドの利用
- 「OpenAIモデルに対するオープンソースの代替手段の探索」
- 「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」
- インフレクション-2はGoogleのPaLM-2を超える:AI言語モデルのブレークスルー
- 「AIシステムのリスク評価方法を学びましょう」
- 「このAI論文は、超人的な数学システムの追求において、認知科学と機械学習の融合を探る」という記事です
- 「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」