「静止画や無音ビデオからオーディオを取得する」

「静止画や無音ビデオからオーディオを抽出する方法」

「サイドアイ」のアイデアは、FBIで働くフリンジ科学の調査官チームを取り扱ったSF番組「FRINGE」のエピソードに触発されました。彼らは溶けたガラス板から音声を抽出します。¶ クレジット:Matthew Modoono/ノースイースタン大学

ノースイースタン大学で開発された機械学習ツールは、静止画や消音されたビデオから音声を取得することができます。

「サイドアイ」と呼ばれるこのツールは、ほとんどのスマートフォンのカメラに標準搭載されている画像安定化技術を活用して、カメラの外で話している人の性別や正確な言葉を特定することが可能です。

ノースイースタン大学のケビン・フーは、カメラレンズを液体中で吊り下げている小さなバネが微視的な振動を経験し、カメラレンズの近くで誰かが話すと光がほとんど感知できないほど微妙に曲げられると説明しました。

スマートフォンのほとんどで使用されているローリングシャッター方式の撮影方法を利用して、研究者たちはこれらの振動から音波の周波数を抽出することができます。

「サイドアイ」は音声がわずかに消音されてしまいますが、機械学習と特定の単語や音声のトレーニングを活用することで、多くの情報を抽出することができるようになります。フー氏はノースイースタン・グローバル・ニュースの一部から述べています。全文を見る

要約版の著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法の...

AIニュース

モデルレジストリとAmazon SageMakerモデルカードを統合する

「Amazon SageMakerモデルカードにより、モデルのドキュメント化方法を標準化し、モデルの設計、構築、トレーニング、評価な...

機械学習

中国のこのAI論文は、HQTrackというビデオ内のあらゆるものを高品質で追跡するためのAIフレームワークを提案しています

ビジュアルオブジェクトトラッキングは、ロボットビジョンや自動運転など、コンピュータビジョン内の多くのサブフィールドの...

データサイエンス

「限られたトレーニングデータでも、機械学習モデルは信頼性のある結果を生み出すことができる」

研究者は、機械学習モデルが限られた訓練データでも信頼性のある結果を生成できることを示しました

機械学習

「AIの問題を定義する方法」

「25年以上のソフトウェアエンジニアリングの経験を持っていますので、人工知能(AI)と機械学習を始めるソフトウェア開発者...

AIニュース

「人工知能AIを搭載したトップのChrome拡張機能」

AI技術の進歩により、機械が代わりに文章を作成するというアイデアは、科学小説から現実に移りました。現在では、いくつかの...