「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「ラズベリーシェイクで地震を検知」

「Raspberry Piをベースとした地震計は既存のネットワークを補完することができます」

AI研究

メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム

「BRANCH-SOLVE-MERGE(BSM)」は、複雑な自然言語タスクにおける大規模な言語モデル(LLM)を向上させるためのプログラムで...

機械学習

「インフレクションは、世界で最高のAIモデルであり、そのクラスのコンピューティングでは世界で2番目に能力のあるLLMです」

Inflection AIは、最高のLarge Language Modelを開発しました。同社のモデルであるInflection-2は、オープンAIの最新作品に続...

データサイエンス

このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています

生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョン...

AIニュース

昆虫サイボーグ:精密な動きに向けて

研究者たちは、スティック昆虫の脚の筋肉における電気刺激が、ハイブリッド昆虫コンピュータロボットの精密なモーターコント...

データサイエンス

Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.

大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長...