3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

メタAIが完璧な人体に対して正確な3D空間音響を生成する人工知能モデルを紹介!3Dボディモデルに音声が付きました!

知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェントシステムの持続的な発展がもたらされてきました。マシンラーニングモデルは、現実と仮想のギャップを埋める間に非常に人気が高まっています。コンピューテーションヴィジョンの分野では、3D人体モデリングが大きな注目を浴びていますが、音響側のモデリングや音声や身体の動きから3D空間オーディオを生成する課題はまだ議論の対象です。常に注目されてきたのは、人体の人工的表現の視覚的忠実度です。

人間の知覚は、聴覚と視覚のヒントを組み合わせて環境を理解するため、マルチモーダルな性質を持っています。3Dサウンドを正確にシミュレートすることは、3Dの世界で存在感と没入感を作り出すために非常に重要です。これらの課題に対処するため、Shanghai AI LaboratoryとMeta Reality Labs Researchの研究者チームは、人間の全身に対して正確な3D空間オーディオ表現を生成するモデルを提案しました。

提案された技術は、ヘッドマウントマイクロフォンと人体の姿勢データを使用して、精確な3D空間音響を合成すると述べられています。ケーススタディでは、拡張現実と仮想現実(AR/VR)を組み合わせたテレプレゼンスシナリオに焦点を当て、ユーザーはフルボディアバターでコミュニケーションを行います。ヘッドマウントマイクロフォンからのエゴセントリックオーディオデータとアバターをアニメートするために使用される身体の姿勢データが入力の例として使用されています。

音の空間化には、音源が既知であり、そこに妨害がないと仮定する現在の手法が前提とされています。提案された手法では、身体の姿勢データを使用して、さまざまなノイズのソースを区別し、正確に空間化された信号を生成するマルチモーダルネットワークをトレーニングすることで、これらの問題を解決しています。身体を取り囲む音響領域が出力であり、7つのヘッドマウントマイクロフォンからのオーディオと被験者の姿勢が入力になります。

研究チームは実証評価を行い、適切な損失関数でトレーニングされた場合に、モデルが体の動きから生じる音場を信頼性があり確実に再現できることを示しました。モデルのコードとデータセットはインターネット上で一般に利用可能で、この分野でのオープン性、繰り返し可能性、および追加の開発を促進しています。GitHubリポジトリはhttps://github.com/facebookresearch/SoundingBodiesでアクセスできます。

研究チームによる作業の主な貢献は、以下のように要約されています。

  1. ヘッドマウントマイクロフォンと身体のポーズを使用して、人体の現実的な3D音響空間をレンダリングする独自の手法を紹介しました。
  1. ボディポーズと緻密な損失関数の重要性を示す包括的な実証評価が共有されました。
  1. 研究チームが作成した新しいデータセットが、345個のマイクの配列からの空間オーディオ録音とマルチビューの人体データを組み合わせています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

エヌビディアは、今日のSC23で、科学や産業の研究センターを新たなパフォーマンスとエネルギー効率のレベルに引き上げる次世...

AI研究

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバー...

人工知能

「ビジネスを成長させるための50のChatGPTプロンプト」

ビジネスで成功するのは難しいですもしChatGPTの使い方を学ばないなら、さらに困難になるでしょう

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

機械学習

「なんでもセグメント:任意のオブジェクトのセグメンテーションを促す」

今日の論文解説はビジュアルになります!私たちはMetaのAI研究チームによる論文「Segment Anything」を分析しますこの論文は...

データサイエンス

QRコードに飽きた?独自のフィジュアルマーカーを作りましょう

「QRコードを置き換えるためにフィドゥシャリマーカーを作成する方法を学びましょう:設計から検出まで、解読を通して、すべ...