「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
「Appleの研究者が画期的な人工知能アプローチで、動的なポーズのRGB画像から密集3D再構築を実現」
学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成の曖昧さに向けて大きな進歩を遂げました。リアルタイム実行のための実用的なソリューションが注目されています。これらのソリューションは、モバイルデバイス上のインタラクティブなアプリケーションにとって不可欠です。しかし、現在の最先端の再構成システムには、成功したアプローチがオンラインかつリアルタイムの両方であるという重要な前提条件が考慮されていません。
オンラインで動作するためには、アルゴリズムが画像キャプチャ中に正確な増分再構成を生成し、すべての時間間隔で過去と現在の観測にのみ依存する必要があります。この問題は、各ビューが正確な、完全に最適化された姿勢推定を持っているという以前の取り組みの重要な前提を破ります。その代わりに、同時位置推定およびマッピング(SLAM)システムでは、リアルワールドのスキャン条件の下で姿勢のドリフトが発生し、動的な姿勢推定のストリームが生じます。既存の姿勢は、姿勢グラフ最適化およびループクロージャによって更新されます。このようなSLAMからの姿勢の更新は、オンラインスキャンで一般的です。
図1に示すように、再構成はこれらの変更を尊重することによって、SLAMシステムとの一致を維持する必要があります。ただし、最近のRGBのみの密な再構成には、オンラインアプリケーションでのカメラの姿勢推定の動的な性質にはまだ対応していません。再構成の品質における重要な進展にもかかわらず、これらの取り組みは動的な姿勢を明示的に扱っておらず、静的な姿勢の入力画像の従来の問題の定式化を維持しています。一方で、これらの更新が存在し、現在のRGBのみの手法に姿勢の更新管理を統合する方法を提供しています。
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム
- CMU(カーネギーメロン大学)およびNYU(ニューヨーク大学)の研究者たちは、大規模言語モデル(LLM)を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています
図1:SLAMシステム(a、b)からの姿勢データは、ライブ3D再構成では更新(c、赤緑)される場合があります。私たちの姿勢更新管理手法は、グローバルに一貫性のある正確な再構成を生成しますが、これらの変更を無視すると不正確なジオメトリが生じます。
彼らは、シーンに新しい視点を統合するための線形の更新アルゴリズムを使用するRGB-Dの技術であるBundleFusionに影響を受けています。これにより、古いビューの非統合と、更新された位置の利用可能性に応じた再統合が可能となります。本研究では、汎用的なフレームワークとしての非線形の学習ベースの非統合技術を提供し、RGB画像からの動的な再構築における姿勢変更の管理をサポートします。静的な姿勢の仮定を持つ3つのサンプルのRGBのみの再構築技術が研究されています。オンラインシナリオにおける各アプローチの制約を克服するために。
具体的には、Appleとカリフォルニア大学サンタバーバラ校の研究者は、学習ベースの非線形の更新ルールに依存するNeuralReconなどの技術のために、動的な再構築を容易にする深層学習ベースの非線形の非統合技術を提供します。彼らは、LivePoseと呼ばれる新しいかつユニークなデータセットを提供し、BundleFusionを使用して構築されたScanNetの完全な動的な姿勢シーケンスを含んでおり、この技術を検証し、将来の研究を支援します。非統合戦略の効果は、重要な再構成指標における質的および量的な改善を明らかにするテストで示されています。
彼らの主な貢献は以下の通りです:• モバイルインタラクティブアプリケーションのための現実の環境により忠実に模倣した新しいビジョンの仕事を提供し、動的な姿勢のRGB画像からの密なオンライン3D再構成を実現します。• 彼らは公開可能な初の動的SLAM姿勢推定データセットであるLivePoseをリリースしました。これにはScanNetデータセットの1,613スキャンごとに完全なSLAMポーズストリームが含まれます。• 動的な姿勢での再構築を容易にするために、革新的なトレーニングと評価方法を作成しました。• 学習済みの再発ビュー統合を持つ技術に対して動的な位置処理を可能にする、独自の再発性非統合モジュールを提案しています。このモジュールは、姿勢変更の管理方法を教えます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- シリコンボレー:デザイナーがチップ支援のために生成AIを活用
- バイデン大統領がAI実行命令を発布し、安全評価、市民権のガイダンス、労働市場への影響に関する研究を要求しています
- コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです
- 「NYUの研究者たちはゲノミクスのためのニューラルネットワークを作成し、それが予測にどのように辿り着くかを説明できることを示しました」
- 『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました
- 新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました
- この中国のAI研究は、ベートーヴェン、クレオパトラ女王、ユリウス・カエサルなど特定の人物として振る舞うようにLLMを教えるCharacter-LLMを紹介しています