「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「新しいHADARベースのイメージングツールにより、暗闇でもクリアに見ることができます」

ロボットや自律型車両が最も暗い夜でも容易に移動できる世界を想像してみてください。それは熱シグナルを知覚するAIによって...

AIニュース

混合現実で測定された没入型エンゲージメントの反応時間

「マサチューセッツ大学アムハースト校の研究者は、リアクションタイムが混合現実技術との存在感(没入型エンゲージメント)...

AI研究

UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状...

AIニュース

「最もテクノロジー志向のある米国の都市は、自動運転車について疑問を抱いています」

サンフランシスコの役人や住民は自動運転車に感銘を受けていませんこれは自律型車両企業にとって前に立ちはだかる課題を強調...

コンピュータサイエンス

数千の著者がAI企業に対し、無断での作品利用を停止するよう要請

約8,000人の著者が、OpenAI、Alphabet、Metaなど6つのAI企業のリーダー宛に手紙に署名しました

機械学習

AIによる生産性向上 生成AIが様々な産業において効率の新たな時代を開く

2022年11月22日、ほとんど仮想的な瞬間が訪れ、それは地球上のほぼすべての産業の基盤を揺るがしました。 その日、OpenAIは史...