「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」

最近、拡散ベースの大規模テキストから画像(T2I)モデルのおかげで、視覚素材の作成の学問は変化しています。これらのT2Iモ...

機械学習

「今日、何を見たと思う?このAIモデルは、あなたの脳の信号を解読して、あなたが見たものを再構築するんだよ」

脳 。人体の最も魅力的な器官です。それがどのように機能するかを理解することが、生命の秘密を解き明かす鍵です。私たちはど...

機械学習

「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって...

AI研究

韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩

この論文では、以前のモデルのさまざまな側面を改善することにより、より自然な音声を合成する単一ステージのテキストから音...

AI研究

コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラー...

データサイエンス

GPTと人間の心理学

GPTと人間の心理学との類推を行うことで、私たちは生成型AIの出力を促進する方法を理解することができます