3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介
メタAIが完璧な人体に対して正確な3D空間音響を生成する人工知能モデルを紹介!3Dボディモデルに音声が付きました!
知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェントシステムの持続的な発展がもたらされてきました。マシンラーニングモデルは、現実と仮想のギャップを埋める間に非常に人気が高まっています。コンピューテーションヴィジョンの分野では、3D人体モデリングが大きな注目を浴びていますが、音響側のモデリングや音声や身体の動きから3D空間オーディオを生成する課題はまだ議論の対象です。常に注目されてきたのは、人体の人工的表現の視覚的忠実度です。
人間の知覚は、聴覚と視覚のヒントを組み合わせて環境を理解するため、マルチモーダルな性質を持っています。3Dサウンドを正確にシミュレートすることは、3Dの世界で存在感と没入感を作り出すために非常に重要です。これらの課題に対処するため、Shanghai AI LaboratoryとMeta Reality Labs Researchの研究者チームは、人間の全身に対して正確な3D空間オーディオ表現を生成するモデルを提案しました。
提案された技術は、ヘッドマウントマイクロフォンと人体の姿勢データを使用して、精確な3D空間音響を合成すると述べられています。ケーススタディでは、拡張現実と仮想現実(AR/VR)を組み合わせたテレプレゼンスシナリオに焦点を当て、ユーザーはフルボディアバターでコミュニケーションを行います。ヘッドマウントマイクロフォンからのエゴセントリックオーディオデータとアバターをアニメートするために使用される身体の姿勢データが入力の例として使用されています。
- Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです
- 「Amazon Comprehend を使用して有害なコンテンツを検出しましょう」
- ディープマインドのグラフキャストに会いましょう:機械学習による天気予報の飛躍
音の空間化には、音源が既知であり、そこに妨害がないと仮定する現在の手法が前提とされています。提案された手法では、身体の姿勢データを使用して、さまざまなノイズのソースを区別し、正確に空間化された信号を生成するマルチモーダルネットワークをトレーニングすることで、これらの問題を解決しています。身体を取り囲む音響領域が出力であり、7つのヘッドマウントマイクロフォンからのオーディオと被験者の姿勢が入力になります。
研究チームは実証評価を行い、適切な損失関数でトレーニングされた場合に、モデルが体の動きから生じる音場を信頼性があり確実に再現できることを示しました。モデルのコードとデータセットはインターネット上で一般に利用可能で、この分野でのオープン性、繰り返し可能性、および追加の開発を促進しています。GitHubリポジトリはhttps://github.com/facebookresearch/SoundingBodiesでアクセスできます。
研究チームによる作業の主な貢献は、以下のように要約されています。
- ヘッドマウントマイクロフォンと身体のポーズを使用して、人体の現実的な3D音響空間をレンダリングする独自の手法を紹介しました。
- ボディポーズと緻密な損失関数の重要性を示す包括的な実証評価が共有されました。
- 研究チームが作成した新しいデータセットが、345個のマイクの配列からの空間オーディオ録音とマルチビューの人体データを組み合わせています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles