「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

BeLFusion An Action-based Latent Space Approach for Realistic and Diverse Probabilistic Human Motion Prediction Using Latent Diffusion

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべき応用が登場しています。この魅力的なタスクは、観測された動きのシーケンスに基づいて、人間の将来の動きや行動を予測することを目的としています。その目標は、人の体のポーズや動きがどのように進化するかを予測することです。HMPは、ロボット工学、仮想アバター、自律型車両、人間とコンピュータのインタラクションなど、さまざまな分野で応用されています。

確率的HMPは、単一の決定論的な将来ではなく、可能な将来の動きの分布を予測することに焦点を当てた伝統的なHMPの拡張です。このアプローチは、人間の行動の本質的な自発性と予測不可能性を認識し、将来の行動や動きに関連する不確実性を捉えることを目指しています。確率的HMPは、可能な将来の動きの分布を考慮することで、人間の行動の可変性と多様性を考慮し、より現実的かつ柔軟な予測を実現します。アシストロボットや監視アプリケーションなど、複数の可能な行動を予測することが重要な場合に特に価値があります。

確率的HMPは、通常、観測されたシーケンスごとに複数の将来の動きを予測するためにGANやVAEなどの生成モデルを使用してアプローチされます。しかし、この座標空間で多様な動きを生成することに重点を置いた方法は、観測された動きとよりよく整合する必要がある非現実的で速い動きの発散予測につながる場合があります。さらに、これらの方法は、微小な関節変位を伴う広範囲の多様な低レンジの行動を予測することをしばしば見落とします。その結果、行動の多様性を考慮し、確率的HMPタスクでより現実的な予測を行うための新たなアプローチが必要とされています。既存の確率的HMPの手法の制約に対処するために、バルセロナ大学とコンピュータビジョンセンターの研究者は、BeLFusionを提案しています。この新しいアプローチは、現実的かつ多様な人間の動きのシーケンスを生成するための行動潜在空間を導入しています。

生成モデルにおける速く発散する動き。

BeLFusionの主な目的は、動作をポーズから滑らかに遷移させることで、観測されたポーズと予測されたポーズの間の遷移をスムーズにすることです。これは、行動エンコーダ、行動カプラー、コンテキストエンコーダ、補助デコーダから構成される行動VAEによって達成されます。行動エンコーダは、ゲート付き再帰ユニット(GRU)と2D畳み込み層を組み合わせて、関節座標を潜在分布にマッピングします。次に、行動カプラーは、サンプリングされた行動を進行中の動きに転送し、多様で文脈に適した動きを生成します。BeLFusionは、条件付き潜在拡散モデル(LDM)も組み込んでおり、行動の動態を正確にエンコードし、それらを進行中の動きに効果的に転送するとともに、潜在エラーや再構成エラーを最小限に抑えて生成される動きの多様性を高めます。

BeLFusionの革新的なアーキテクチャは、関節座標から隠れた状態を生成するオブザベーションエンコーダで続きます。このモデルでは、行動がポーズと動きから分離された潜在空間からサンプリングされるように、U-Net、クロスアテンションメカニズム、残余ブロックを使用した潜在拡散モデル(LDM)を利用しています。行動の観点からの多様性を促進し、直近の一貫性を維持することにより、BeLFusionは、確率的HMPの最先端手法よりもはるかに現実的で一貫した動きの予測を生み出します。行動の分離と潜在拡散のユニークな組み合わせにより、BeLFusionは人間の動き予測における有望な進歩を表しています。さまざまなアプリケーションに対してより自然で文脈に適した動きを生成する可能性を提供します。

実験評価により、BeLFusionの印象的な汎化能力が示されました。BeLFusionは、既知のシナリオと未知のシナリオの両方で優れたパフォーマンスを発揮します。Human3.6MおよびAMASSデータセットの厳しい結果を使用したクロスデータセット評価において、さまざまなメトリックで最先端の手法を上回ります。H36Mでは、BeLFusionは平均変位誤差(ADE)がおよそ0.372、最終変位誤差(FDE)が約0.474であります。同時に、AMASSでは、ADEが約1.977、FDEがおよそ0.513となります。これらの結果は、BeLFusionの正確で多様な予測を生成する優れた能力を示し、異なるデータセットやアクションクラスにおける現実的な人間の動作予測における有効性と汎化能力を示しています。

全体的に、BeLFusionは、Human3.6MおよびAMASSデータセットの精度メトリックにおいて最先端のパフォーマンスを達成する、人間の動作予測のための新しい手法です。BeLFusionは、行動の潜在空間と潜在拡散モデルを利用して、多様でコンテキスト適応型の予測を生成します。この手法によるシーケンス間での行動の捕捉と転送能力により、ドメインシフトに対して堅牢性が向上し、汎化能力も向上します。さらに、定性評価により、BeLFusionの予測が他の最先端の手法よりも現実的であることが示されました。アニメーション、仮想現実、ロボット工学など、人間の動作予測における有望な解決策を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

デジタルネイティブ(クラウドで生まれた人々)のデータストリーミングの現状

クラウドに生まれたデジタルネイティブを探索し、イノベーションと新しいビジネスモデルにApache Kafkaを活用し、トレンド、...

機械学習

CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コン...

機械学習

AIがYouTubeの多言語吹替を開始します

世界最大の動画共有プラットフォームであるYouTubeは、AI技術の統合により、コンテンツクリエイターが世界中の観客と接触する...

機械学習

このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成するこ...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

人工知能

「Stack Overflowは、OverflowAIによって開発者サポートを革新します」

Stack Overflowは、技術的な回答を求める開発者向けの有名なプラットフォームです。革新的なOverflowAIの提供により、生成型A...