マイクロソフトとジョージア工科大学の研究者が、ヘッドウォーンデバイスを使用した多様な舌ジェスチャー認識技術「TongueTap」を紹介しました

「TongueTap」 マイクロソフトとジョージア工科大学の研究者が開発した舌ジェスチャー認識技術をご紹介

スマートウェアラブルテクノロジーの急速な発展において、スムーズで手を使わず誰もが使えるインタラクションを追求するといくつか画期的な発見がありました。TongueTapは、舌のジェスチャー認識を可能にするために複数のデータストリームを同期させる技術であり、非常に有望です。この方法により、ユーザーは手や目を使わずに静かにインタラクションを行い、通常は口の内側または近くに配置される特別なインターフェースなしで操作することができます。

ジョージア工科大学の研究者は、Microsoft Researchとの共同研究により、TongueTapという舌のジェスチャーインターフェースを開発しました。このインターフェースは、Muse 2とReverb G2 OEの2つの商用ヘッドセットのセンサーを組み合わせて作成されました。両方のヘッドセットにはIMUsと光電プレソモグラフィ(PPG)センサーが含まれています。また、そのうちの1つのヘッドセットには脳波測定(EEG)、視線追跡、および頭部追跡センサーも搭載されています。これらの2つのヘッドセットからのデータは、多様な脳-コンピュータインターフェースに一般的に使用される時刻同期システムであるLab Streaming Layer(LSL)を使用して同期されました。

研究チームは、EEG信号に対してSciPyを使用して128Hzのローパスフィルターを適用し、独立成分分析(ICA)を実施しました。他のセンサーには、それぞれのセンサーごとに主成分分析(PCA)を適用しました。ジェスチャー認識には、Scikit-LearnのSupport Vector Machine(SVM)を使用し、放射基底関数(RBF)カーネルを使用してハイパーパラメータC=100およびgamma=1でバイナリ分類を行い、データウィンドウがジェスチャーを含んでいるかどうかまたはノンジェスチャーであるかを判定しました。

研究者は16人の参加者を対象に舌のジェスチャー認識の評価のために大規模なデータセットを収集しました。研究から最も興味深い結果は、どのセンサーが舌のジェスチャーの分類に最も効果的であったかです。MuseのIMUは単独でも80%の精度を達成し、MuseのIMUを含む多様なPPGセンサーの組み合わせは94%の精度を達成しました。

最も精度が高いセンサーに基づいて、耳の後ろにあるIMUは舌のジェスチャーを検出するための低コストな手法であり、これまでの口内感覚アプローチと組み合わせることができます。舌のジェスチャーを製品に対して実用的にするためには、信頼性のあるユーザー非依存の分類モデルが重要です。より現実的な環境にジェスチャーが応用できるようにするには、複数のセッションや環境間の移動を含むエコロジカルに妥当な研究デザインが必要です。

TongueTapは、スムーズで直感的なウェアラブルデバイスのインタラクションへの大きな進歩です。市販の技術を使用して舌のジェスチャーを識別し分類する能力により、秘密のような正確なヘッドウェアデバイスの制御が可能になる未来が見えます。舌のジェスチャーを制御するための最も有望な応用は、ARインターフェースの制御です。研究者は、ARヘッドセットでの使用や他の視線ベースのインタラクションとの比較を行いながら、さらなる研究によってこの多機能な相互作用を探求する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの...

機械学習

メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 3...

機械学習

AIは精神疾患の検出に優れています

重症患者のせん妄検知は、患者のケアや回復に重要な影響を与える複雑なタスクです。しかし、人工知能(AI)と迅速な反応型脳...

データサイエンス

リトリーバル オーグメンテッド ジェネレーション(RAG)推論エンジンは、CPU上でLangChainを使用しています

「リトリーバル増強生成(RAG)は広範にカバーされており、特にチャットベースのLLMへの応用については詳しく語られています...

人工知能

学校でのChatGPTの影響となぜ禁止されつつあるのか

多くの学校が、ChatGPTがプラグラリズム、正確性、プライバシーの懸念から禁止していますしかし、適切な使い方をすれば、この...

機械学習

AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します

単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大...