「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」

「マックス・プランク研究所の研究者がPoseGPTを導入 3D人物のポーズを画像やテキストの説明から理解し、論理的に推論するAIフレームワークに大規模言語モデル(LLM)を活用」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。

適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。

マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。

彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。

彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。

通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。

LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

GTA-5をプレイしたことはありますか?ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフ...

機械学習

「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成す...

人工知能

「ボイスディープフェイクがあなたの銀行残高を脅かしています」

「人工知能のツールは、詐欺師が人々を騙してお金を送らせるための強力な武器となっています」

AI研究

「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」

画期的な開発により、研究者は人工知能(AI)の力を活用して、思春期の注意欠陥多動性障害(ADHD)の診断に内在する課題に取...

人工知能

ジェネラティブAIをマスターするための5つの無料コース

『創造的AIは、研究と応用の興奮を引き起こす速い領域です最新情報に追いつき、流れに先んじるために、以下の5つのコースをチ...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...