「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」

「マックス・プランク研究所の研究者がPoseGPTを導入 3D人物のポーズを画像やテキストの説明から理解し、論理的に推論するAIフレームワークに大規模言語モデル(LLM)を活用」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。

適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。

マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。

彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。

彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。

通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。

LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

データサイエンス

Pythonコード生成のためのLlama-2 7Bモデルのファインチューニング

約2週間前、生成AIの世界はMeta社が新しいLlama-2 AIモデルをリリースしたことによって驚かされましたその前身であるLlama-1...

データサイエンス

「FourCastNet(フォーキャストネット)との出会い:高速かつ正確なディープラーニング手法によって天気予報を革新するグローバルなデータ駆動型天気予測モデル」

1920年代に数値予報(NWP)が登場しました。これらは、輸送、物流、農業、エネルギー生産などの重要な産業で経済計画に役立ち...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

機械学習

「テキストゥアをご紹介します:3Dメッシュのテキストゥアリングのための新しい人工知能(AI)フレームワーク」

テキストから画像を生成することは、人工知能(AI)の分野における新しい興味深い研究領域であり、テキストの説明に基づいて...