「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業...

機械学習

このAI論文では、「ステーブルシグネチャ:画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています

生成モデリングと自然言語処理の最近の進歩により、DALL’E 2やStable Diffusionなどのツールを使用して、写真のような...

コンピュータサイエンス

空気圧アクチュエータは、ロボットにチーターのような加速力を与えます

南アフリカのケープタウン大学の研究者たちは、気圧アクチュエータを使用して、チーターのように加速し操縦する四足歩行ロボ...

機械学習

メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています

大規模言語モデル(LLM)は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従...

AI研究

メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました

人間の目は素晴らしい器官であり、視覚を可能にし、重要な環境データを保管することができます。通常、目は2つのレンズとして...

AIニュース

オープンAIのイリヤ・サツキバーは、超知能AIを抑制するための計画を持っています

スーパーアライメントチームは、OpenAIのチーフサイエンティストであるイリヤ・サツケヴェルに率いられ、AIモデルの振る舞い...