「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」

「Appleの研究者が画期的な人工知能アプローチで、動的なポーズのRGB画像から密集3D再構築を実現」

学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成の曖昧さに向けて大きな進歩を遂げました。リアルタイム実行のための実用的なソリューションが注目されています。これらのソリューションは、モバイルデバイス上のインタラクティブなアプリケーションにとって不可欠です。しかし、現在の最先端の再構成システムには、成功したアプローチがオンラインかつリアルタイムの両方であるという重要な前提条件が考慮されていません。

オンラインで動作するためには、アルゴリズムが画像キャプチャ中に正確な増分再構成を生成し、すべての時間間隔で過去と現在の観測にのみ依存する必要があります。この問題は、各ビューが正確な、完全に最適化された姿勢推定を持っているという以前の取り組みの重要な前提を破ります。その代わりに、同時位置推定およびマッピング(SLAM)システムでは、リアルワールドのスキャン条件の下で姿勢のドリフトが発生し、動的な姿勢推定のストリームが生じます。既存の姿勢は、姿勢グラフ最適化およびループクロージャによって更新されます。このようなSLAMからの姿勢の更新は、オンラインスキャンで一般的です。

図1に示すように、再構成はこれらの変更を尊重することによって、SLAMシステムとの一致を維持する必要があります。ただし、最近のRGBのみの密な再構成には、オンラインアプリケーションでのカメラの姿勢推定の動的な性質にはまだ対応していません。再構成の品質における重要な進展にもかかわらず、これらの取り組みは動的な姿勢を明示的に扱っておらず、静的な姿勢の入力画像の従来の問題の定式化を維持しています。一方で、これらの更新が存在し、現在のRGBのみの手法に姿勢の更新管理を統合する方法を提供しています。

図1:SLAMシステム(a、b)からの姿勢データは、ライブ3D再構成では更新(c、赤緑)される場合があります。私たちの姿勢更新管理手法は、グローバルに一貫性のある正確な再構成を生成しますが、これらの変更を無視すると不正確なジオメトリが生じます。

彼らは、シーンに新しい視点を統合するための線形の更新アルゴリズムを使用するRGB-Dの技術であるBundleFusionに影響を受けています。これにより、古いビューの非統合と、更新された位置の利用可能性に応じた再統合が可能となります。本研究では、汎用的なフレームワークとしての非線形の学習ベースの非統合技術を提供し、RGB画像からの動的な再構築における姿勢変更の管理をサポートします。静的な姿勢の仮定を持つ3つのサンプルのRGBのみの再構築技術が研究されています。オンラインシナリオにおける各アプローチの制約を克服するために。

具体的には、Appleとカリフォルニア大学サンタバーバラ校の研究者は、学習ベースの非線形の更新ルールに依存するNeuralReconなどの技術のために、動的な再構築を容易にする深層学習ベースの非線形の非統合技術を提供します。彼らは、LivePoseと呼ばれる新しいかつユニークなデータセットを提供し、BundleFusionを使用して構築されたScanNetの完全な動的な姿勢シーケンスを含んでおり、この技術を検証し、将来の研究を支援します。非統合戦略の効果は、重要な再構成指標における質的および量的な改善を明らかにするテストで示されています。

彼らの主な貢献は以下の通りです:• モバイルインタラクティブアプリケーションのための現実の環境により忠実に模倣した新しいビジョンの仕事を提供し、動的な姿勢のRGB画像からの密なオンライン3D再構成を実現します。• 彼らは公開可能な初の動的SLAM姿勢推定データセットであるLivePoseをリリースしました。これにはScanNetデータセットの1,613スキャンごとに完全なSLAMポーズストリームが含まれます。• 動的な姿勢での再構築を容易にするために、革新的なトレーニングと評価方法を作成しました。• 学習済みの再発ビュー統合を持つ技術に対して動的な位置処理を可能にする、独自の再発性非統合モジュールを提案しています。このモジュールは、姿勢変更の管理方法を教えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIがキーストロークを聞く:新たなデータセキュリティの脅威」

ロンドン大学、ダラム大学、サリー大学の研究者によって開発された画期的なAIシステムは、データセキュリティの懸念を新たな...

機械学習

フリーユーについて紹介します:追加のトレーニングや微調整なしで生成品質を向上させる新しいAIテクニック

確率的拡散モデルは、画像生成モデルの最新のカテゴリであり、特にコンピュータビジョンに関連するタスクにおいて研究の重要...

機械学習

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

テック大手のAppleは、大いに期待されているAI搭載チャットボット「AppleGPT」という仮の名前で進んでいます。この革新的なプ...

機械学習

機械学習を用いたサッカータッチダウンの予測

日本語訳:「フットボール全米のファンを結びつける、アメリカの伝統的なスポーツです1試合平均1670万人の視聴者数と、スーパ...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

機械学習

「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...