「音声のデコード」

Speech Decoding

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

脳活動は、脳の言語関連領域に手術用デバイスを埋め込むか、非侵襲的なシステムである脳波測定器を使用することで捉えることができます。 ¶ クレジット:A Health Blog

アレクサやSiriなどのデジタル音声アシスタントに話しかける代わりに、我々は単に思い浮かべたことをデバイスに伝えることで、近い将来、デバイスと対話することができるようになるかもしれません。これを実現するために、研究者たちは脳-コンピュータインタフェース(BCI)と人工知能(AI)の進歩に着目し、音声に関連する脳活動を解読しようとしています。

「[次の数年で進歩を遂げる]ならば、私はこれらの解決策を実世界の応用に向けることができると確信しています」と、ドイツ人工知能研究センター(DFKI)の認知アシスタントBCI-Labの研究者であるMaurice Rekrutは述べています。

音声解読BCIは、特定の状態の人々がコミュニケーションを支援するためにも特に興味があります。例えば、運動ニューロン疾患(MND)や筋萎縮性側索硬化症(ALS)などの疾患によって、音声に関与する筋肉にメッセージを送る神経細胞が損傷を受けることがあり、その結果、話す能力に影響を与えることがあります。患者はしばしば予測変換テキストと組み合わせた視線制御システムを使用して、伝えたいことをタイプすることがありますが、それは遅くてイライラするプロセスです。イギリス・バース大学のdSPEECHプロジェクトの研究助手であるScott Wellingtonは、「重要なことは、人々に自然な話し方だけでなく、流暢さとスピードを取り戻すことです」と述べています。「それがBCIでできることです」。

脳活動は、脳の話しに関連する領域に手術用の装置を埋め込むか、頭皮にセンサを配置して同じ脳の領域の電気信号を拾う非侵襲的なシステムである脳波計(これらのテストは脳波計またはEEGとして知られています)を使用することで捉えることができます。ただし、効果的に音声信号を捉えるためには、多くの課題があります。

例えば、現在のところはより有望な手段として、脳の話しを処理する領域に直接配置することができるため、より高解像度の信号が得られるという点で、インプラントがあります。ただし、既存の装置は脳に損傷を与えずに取り外すことはできません。

また、多くの研究者がEEGについても実験していますが、信号は頭皮に到達するまでに非常に減衰してしまいます。

「私たちは、その信号を非常に興味深い統計的特徴の組に分解するための信号処理を行う非常に巧妙な方法を見つける必要があります」とウェリントンは述べています。

ウェリントンと彼の同僚は最近の研究で、商用のEEGヘッドセットを使用して脳波データを用いて音声解読の能力を調査しました。彼らの目標は、より洗練された機械学習と信号処理の技術を取り入れることにより、研究用のEEG装置と同等の解読精度を達成できるかどうかを確認することでした。

実験では、16の英語の音素(p、b、d、tなどの独立した音の単位)に焦点を当て、21人の参加者に耳で聞き、想像し、声に出してもらいました。EEGセンサから拾われた脳活動は、各インスタンスで記録されました。

そのデータを用いて、研究者たちは古典的な機械学習モデルとより複雑な深層学習CNNモデルを訓練し、異なる音素のクラスを解読しました。彼らは伝統的なモデルの方が優れた成績を収めることを驚いたとのことです。「脳内の話しを解読する研究を行っている人々は、ディープラーニングモデルと比較しても、古典的な機械学習モデルの方がまだまずまずの成績を収める傾向があると多くの場合発見する」とウェリントンは述べています。彼のチームはなぜそうなのかははっきりしていないが、ディープラーニングモデルは通常、効果的になるためには大量のデータが必要であるため、それが理由である可能性があると考えています。

ただし、古典的な機械学習モデルは、一部の音素を比較的うまく区別することができましたが、理解可能な話しを解読するには程遠いです。ウェリントンは、Open AIのGPT-3などの大規模言語モデルを組み込むことで、その性能を大幅に向上させることができると言います。これらのモデルは文脈に応じて潜在的な単語の確率を考慮します。「英語のルールと全ての英語の音素の分布の統計に基づいて、(大規模言語モデルは)あなたが言おうとしている単語がおそらく「家」であると非常に高い自信を持って言うことができる」とウェリントンは言います。

もう一つの問題は、話し解読システムがしばしば話しを生み出す発話器を動かす神経細胞からの信号に焦点を当てているため、MNDやALSなどの神経障害を持つ人々では抑制されていることです。しかし、健康な人々では、これらの信号が実際の話しにつながるため、能力を失った一部の人々にしか適していません。「試みられた話しの解読の最先端の研究では、自然な話しを失った人々において、話すことは非常に疲れる作業になることが増えてきている」とウェリントンは述べています。

その代わりに、内部の独り言や読み声の内容を解読することは、誰でも利用でき、より少ない努力が必要なシステムにつながる可能性があります。ただし、想像された話しの解読は、いくつかの理由から課題となることがあります。例えば、脳活動のパターンは非常に変動が大きいため、異なる個人はしばしば異なる方法で話しを思考することがあります。ある人は単語を話す自分自身を想像するかもしれませんが、他の人は話しながら筋肉を動かすことを想像するかもしれません。その結果、異なる種類の脳信号が生じます。

さらに、前日に良く眠ったかどうかなど、私たちの精神状態から生じる背景の活動は、捉えられる信号に影響を与える可能性があります。これはつまり、話しに関連する脳活動は個々の人にとって一貫していないということです。「あなたは、(参加者が)本当にテンションが高かった日に、最初の日にトレーニングした(機械学習の)分類器(アルゴリズム)を、彼らが本当に疲れていた日に2日目に適用することで問題が発生するでしょう」とレクルトは述べています。

10月から始まるプロジェクトでは、レクルトと彼の同僚は、数週間から1年にわたり、朝と夜の異なる状況で参加者との話し解読の研究を行うことで、この問題に取り組むことを目指しています。大量のデータの収集、参加者からの精神状態に関する情報も含めることで、さまざまな要因が脳活動とBCIの性能にどのように影響を与えるかを特定することができるはずです。「私たちはこのデータを分類器に提供し、パターンを見つけることができるかどうかを確認しようとします」とレクルトは述べています。「参加者が疲れているとき、EEGの活動からフィルタリングできる特定のパターンを見つけることができるかもしれませんし、それをコミュニティに提供することができるかもしれません」。

想像された音声は、神経信号がより微妙であるため、試みられた音声よりも解読が難しいです。ウェリントンと彼の同僚たちは、新しいプロジェクトであるdSPEECHというもので、表面上の高解像度の信号を捉えるために頭皮に電極を埋め込む侵襲的な手法である電気皮質計測法(electrocorticography)と、脳の奥深くにある音声関連の脳信号にアクセスするためのセンサーを備えたプローブを使用する方法であるsEEGを調査し、最終的に組み合わせることを目指しています。

また、信号処理と機械学習のパイプラインを開発することで、英語の44の音素を合理的な精度で解読しようとします。組み合わせることができる個々の音に焦点を当てることで、解読できる単語の数を劇的に増やすことができるはずです。現在の最高のシステムでは、約300の英単語を解読することができますが、基本的なコミュニケーションにも十分ではありません。

ウェリントンの目標は、人々のコミュニケーション能力がまったく制限されないシステムを作り出すことです。また、現在のシステムでは難しい名前の解読も可能になります。なぜなら、各名前に関連する脳活動を記録する必要があるからです。話すことができない人々にとって、出会った人の名前で呼びかけることはコミュニケーションにおいて重要な要素です。

「音素レベルの解読では、自由に言葉を選ぶことができます」と彼は付け加えます。「それが進むべき道だと確信しています。」

Sandrine Ceurstemontは、イギリス・ロンドンを拠点とするフリーランスの科学ライターです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...