「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合...

AIニュース

変形ロボットが昆虫のように握り、登り、這うことができる

3つの新しいロボットシステムは、形を変えて困難な地形にスムーズに移動できるように適応できます

機械学習

AIの未来を形作る ビジョン・ランゲージ・プリトレーニング・モデルの包括的な調査と、ユニモーダルおよびマルチモーダルタスクにおける役割

機械学習研究の最新リリースで、ビジョン言語事前学習(VLP)とその多様なタスクへの応用について、研究チームが深く掘り下げ...

機械学習

ソースフリーのドメイン適応における壁の破壊:バイオアコースティクスとビジョン領域へのNOTELAの影響

ディープラーニングは、さまざまなアプリケーション領域で重要な進展を遂げています。その一因は、ますます大規模なデータセ...

機械学習

このAI論文は、古典的なコンピュータによって生成される敵対的攻撃に対して、量子マシンラーニングモデルがより良く防御される可能性があることを示唆しています

機械学習(ML)は確かに急速な拡大と統合を経て、多くの分野において革新的な問題解決方法を提供し、データから価値ある洞察...