セマンティックヒアリング:リアルな環境で特定の音を重点的に集中させたり無視したりしながら、空間認識を維持するための機械学習に基づくヒアラブルデバイスの新しい機能

「セマンティックヒアリング:ヒアラブルデバイスの新たな機能で、特定の音に集中・無視しながら空間認識を維持するための機械学習」

ワシントン大学とマイクロソフトの研究者は、先進的な機械学習アルゴリズムによって駆動される意味解釈能力を持つノイズキャンセリングヘッドフォンを発表しました。この革新的なイノベーションにより、着用者は望む音だけを聞くことができ、他の聴覚的な妨害を排除することができます。

チームは自分たちの革新的な取り組みを進める上での中心的な障壁について詳述しました。現在のノイズキャンセリングヘッドフォンの問題点を強調し、周囲の環境から特定の音を識別し分離するために必要なリアルタイム情報を持っていないと指摘しました。そのため、着用者の聴覚体験と視覚知覚の間のシームレスな同期は重要な懸念事項となります。聴覚刺激の処理に遅延が生じることは許容できず、ほぼ即座に行われる必要があります。

従来のノイズキャンセリングヘッドフォンは主に入ってくる音を阻害したり、特定の周波数をフィルタリングすることに重点を置いていますが、この革新的なプロトタイプは異なるアプローチを採用しています。入ってくる音に対して分類システムを使用し、ユーザーが聞きたい音を個別に選択することができます。

このプロトタイプのポテンシャルは、一連の試験を通じて示されました。これらの試験は、掃除機の音の中での会話や街のざわめきを消して鳥の鳴き声に集中すること、そして交通のクラクションに注意を払いながら建設の騒音を軽減することなどが含まれていました。この装置は、セッションの終了を知らせるアラーム以外の周囲の音を静かにすることで瞑想を促進しました。

迅速な音の処理を実現するための核心は、ヘッドフォンに統合されるよりもパワフルなデバイス、つまりユーザーのスマートフォンを活用することにあります。このデバイスには、バイノーラル音の抽出に特化した専用のニューラルネットワークが搭載されており、研究者によればこれは革新的な業績です。

実験中、研究チームは20の異なる音のクラスで正常に動作し、接続されたスマートフォン上でわずか6.56ミリ秒の時間で実行することを証明しました。新しい室内外のシナリオでの現実の評価により、ターゲットの音を抽出しながら、バイノーラル出力の空間的な手がかりを保持する証明段階のシステムの有効性が確認されました。

このノイズキャンセリング技術の革新的な進展は、さまざまな環境でユーザーエクスペリエンスを向上させるための広大な可能性を秘めています。リアルタイムで個別の音環境をカスタマイズできることで、これらの次世代ヘッドフォンは従来の制約を超えます。研究チームがこのイノベーションをさらに洗練し、コードの公開に備えるにつれて、個人の音風景が指先にある未来への展望が現実味を帯びてきます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Llama 2:ChatGPTに挑むオープンソースの深層ダイブ」

「プログラミングや創造的な文章作成などの特定の領域で有望な複雑な推論タスクをこなす大規模言語モデル(LLM)が存在します...

データサイエンス

JavaScriptを使用してOracleデータベース内からHugging Face AIを呼び出す方法

JavaScriptとオープンソースを使用して完全に無料でAIアーキテクチャを最適化し、SQL、JSON、またはRESTを使用して同じデータ...

人工知能

「顔認識システムにおけるバイアスの解消 新しいアプローチ」

この記事では、顔認識システムにおけるバイアスに関する問題を探求し、開発者がこの問題を軽減するために採用できる潜在的な...

機械学習

「SDXL 1.0の登場」

機械学習の急速に進化する世界では、新しいモデルやテクノロジーがほぼ毎日私たちのフィードに押し寄せるため、最新情報を把...

AIニュース

APIワールド2023:API、AI、および秘密のセキュリティを結集する

「API World 2023は、ベストプラクティスの洞察を共有し、すべての資産を考慮すること、そしてAPI駆動型の世界におけるAIとAP...

AI研究

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデ...