「スピーチの回復を革新する:スタンフォード主導の研究が制約のないコミュニケーションのための高性能な神経プロステーシスを公開」
Stanford-led research unveils high-performance neural prosthesis for unconstrained communication to revolutionize speech recovery.
脳コンピュータインタフェース(BCI)を用いた音声は、障害によりコミュニケーション能力を失った人々のリハビリに有望な応用がある、最先端の技術革新です。巨大な語彙から制約のないフレーズのコミュニケーションを可能にするための脳プロセスの解読はまだ初期段階ですが、初期の調査では有望性が示されています。
この空白を埋める手段として、スタンフォード大学、ワシントン大学、VA RR&D Center for Neurorestoration and Neurotechnology、ブラウン大学、ハーバード医学大学の研究チームが、大語彙の制約のない文を62語/分の速度で処理できる高性能音声テキストBCIを最近発表しました。この速度は、麻痺のある人々の通常の技術に比べて大幅に高いコミュニケーション速度です。チームは、BrainGate2パイロット臨床試験からの脳活動記録を使用し、まず運動皮質が口腔顔面運動と音声生成をどのように組織化しているかを調べました。彼らは、すべての研究対象の運動が領域6vで強くチューニングされていることを発見しました。
次に、それぞれの運動のデータが6v領域全体にどのように広がっているかを調べ、ドーサルアレイが口腔顔面運動に関する情報をより多く持っている一方、ベントラルアレイが最も信頼性の高い音声デコード率を提供していることがわかりました。それにもかかわらず、6vアレイはあらゆるタイプの動きに関する豊富なデータを提供します。最後に、3.2 3.2 mm2のアレイはすべての声優器を適切に表現できます。次に、彼らはリアルタイムでフルセンテンスを中立的に解析できるかどうかを調べました。彼らは、最小限のニューラルデータで優れた性能を発揮する再帰ニューラルネットワーク(RNN)を訓練するために、最先端の音声認識に着想を得た特注の機械学習技術を使用しました。
- チューリッヒ大学の研究者たちは、スイフトという自律型ビジョンベースのドローンを開発しましたこのドローンは、いくつかの公平なヘッドトゥヘッドレースで人間の世界チャンピオンに勝つことができます
- 「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」
- バージニア工科大学とマイクロソフトの研究者がアイデアの探求と推論の能力を高めるAIアプローチ、アルゴリズムオブソウツを紹介
彼らのデータを使用すると、提案された方法は、50語のうち92%、39音素のうち62%、およびすべての口腔顔面運動のうち92%を正しくデコードすることができます。さらに、音声テキストBCIを使用して1分間に62語を達成することができます。要約すると、すべての調査対象の運動に一貫して空間的に交差したチューニングがあることから、発話の表現は麻痺と皮質表面の制限にもかかわらず、音声BCIを維持するのに十分強力であることが示されます。発話生成に関するデータの提供は、領域44が最小限のデータしか提供していないため、さらなる分析のために6v領域の記録が使用されました。
脳幹脳卒中や筋萎縮性側索硬化症などの神経系の疾患を持つ人々では、話すことや動くことが深刻に制約されるか、完全に失われることがあります。麻痺した人々は、手の動きの活動に基づいたBCIを使用して、1分間に8〜18語のタイピングができるようになりました。彼らは大いに期待されていますが、音声BCIはまだ大語彙での優れた正確さを達成していません。これは、自然なコミュニケーションの回復能力を大幅に向上させることになります。単一ニューロンの分解能を持つマイクロ電極アレイを使用して脳活動を記録することで、研究者は幅広い語彙からの伸びのない文を解析できる音声BCIを開発しました(1分間62語の速度)。これは、麻痺した人々に対する他の技術よりもはるかに高速なコミュニケーション速度を提供するBCIが初めて示されたものです。
この実験は、広範な語彙を含む話し言葉の試みをデコードするために神経スパイク活動を使用することが可能であることを示しています。ただし、システムを臨床設定で使用するためには、まだ完成度を高める必要があります。訓練時間を最小限に抑え、多日にわたる脳活動の変動に適応するためにBCIをよりユーザーフレンドリーにするためのさらなる作業が必要です。さらに、臨床設定での広範な使用に先立って、安全性と有効性についてのさらなる証拠が必要です。さらに、ここで示されたデコード結果を他の参加者で再現できるかどうか、およびそれがより重度の口腔顔面麻痺を持つ人々に適用できるかどうかは不明です。さまざまな脳構造の程度の異なる人々において、音声情報を保持する前中央回の領域が信頼性を持ってターゲットにできるかどうかを確認するためには、さらなる研究が必要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「The Research Agent 大規模なテキストコーパスに基づいた質問に答える課題への取り組み」
- 「ニューヨーク大学の研究者が、人の見かけの年齢を画像内で変える新しい人工知能技術を開発しましたが、その人の独自の識別特徴を維持します」
- Googleの研究者たちは、AIによって生成された画像を透かしを入れたり識別するためのデジタルツールである「𝗦𝘆𝗻𝘁𝗵𝗜𝗗」を紹介しました
- 「GoogleはDeepfakeへの対策として、AIによって生成された画像にウォーターマークを付けます」
- このAI研究は、深層学習システムが継続的な学習環境で使用される際の「可塑性の喪失」という問題に取り組んでいます
- Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました
- 「S-LabとNTUの研究者が、シーニメファイ(Scenimefy)を提案しましたこれは、現実世界の画像から自動的に高品質なアニメシーンのレンダリングを行うための画像対画像翻訳フレームワークであり、セミスーパーバイズド(半教師付き)手法を採用しています」