「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」

「マックス・プランク研究所の研究者がPoseGPTを導入 3D人物のポーズを画像やテキストの説明から理解し、論理的に推論するAIフレームワークに大規模言語モデル(LLM)を活用」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。

適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。

マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。

彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。

彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。

通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。

LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「DeepMindによるこのAI研究は、シンプルな合成データを使用して、大規模な言語モデル(LLM)におけるおべっか使用を減らすことを目指しています」

大規模言語モデル(LLMs)は近年大きく進化し、推論を必要とする難しいタスクを処理することができるようになりました。OpenA...

データサイエンス

「グリオブラストーマ患者におけるMGMTメチル化状態を予測するための機械学習アプローチ」

今日は、雑誌Nature Scientific Reportsに掲載された、グリオブラストーマ患者に関する研究を探求します『グリオブラストーマ...

人工知能

人工知能を規制するための競争

なぜヨーロッパがアメリカや中国に比べて優位に立っているのか

AIニュース

Amazon SageMaker Model Cardの共有を利用して、モデルのガバナンスを向上させる

MLガバナンスの一環として利用可能なツールの1つは、Amazon SageMaker Model Cardsですこのツールは、モデルのライフサイクル...

機械学習

「最も適応能力の高い生存者 コンパクトな生成型AIモデルは、コスト効率の高い大規模AIの未来です」

人工知能(AI)モデルの複雑さと計算量が急速に成長した10年後の2023年は、効率と生成型AI(GenAI)の広範な応用に焦点を移す...

機械学習

「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」

近年、大規模言語モデル(LLM)の開発により、人工知能(AI)と機械学習の分野において革新的な変化がもたらされました。これ...