「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」
「マックス・プランク研究所の研究者がPoseGPTを導入 3D人物のポーズを画像やテキストの説明から理解し、論理的に推論するAIフレームワークに大規模言語モデル(LLM)を活用」
人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。
適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。
マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。
- このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる
- ジュネーブ大学の研究者は、多剤耐性(MDR)腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています
- 上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです
彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。
彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。
通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。
LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 研究者たちは、アルゴリズムに「味覚」を教えることに成功しました
- 「CMU研究者がDiffusion-TTAを発表:類まれなテスト時間適応のために生成的フィードバックで識別的AIモデルを高める」
- 「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」
- Google AIとテルアビブ大学の研究者は、テキストから画像への拡散モデルと専門のレンズジオメトリを組み合わせた人工知能フレームワークを提案しています画像のレンダリングに関して、これは画期的なものです
- このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器
- 「Google DeepMind ResearchはSODAを紹介しました:表現学習のために設計された自己教師付き拡散モデル」
- 北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク