メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました

Maryland University's new AI research has developed an AI system that can reconstruct a 3D scene from the reflection of human eyes.

人間の目は素晴らしい器官であり、視覚を可能にし、重要な環境データを保管することができます。通常、目は2つのレンズとして使用され、光をその網膜を構成する感光細胞に向けて誘導します。しかし、他人の目を見ると、角膜から反射された光も見ることができます。カメラを使用して他人の目を写真に撮ると、イメージングシステム内の一対のミラーに自分の目を変えます。観察者の網膜に届く光と彼らの目から反射する光は同じ源から来るため、彼らのカメラは観察している環境に関する詳細を含む写真を提供するはずです。

以前の実験では、2つの目の画像が、観察者が見ている世界の全景表現を回復させました。リライト、焦点オブジェクトの推定、グリップ位置の検出、個人認識などのアプリケーションは、後続の調査でさらに研究されています。現在の3Dビジョンとグラフィックスの開発により、単一の全景環境マップを再構築するだけでなく、観察者の現実を3次元で復元できるかどうか熟考しています。頭が自然に動くと、目が複数のビューから情報をキャプチャし、反映することを知っています。

メリーランド大学の研究者たちは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。彼らの方法は、静止したカメラを使用し、目の画像からマルチビューの手掛かりを抽出します。通常のNeRFキャプチャセットアップでは、マルチビュー情報を取得するために移動カメラが必要です(しばしばカメラ位置の推定に続きます)。概念的には単純ですが、実際には、目の画像から3D NeRFを再構築することは困難です。最初の困難は、ソース分離です。彼らは、人間の目の複雑な虹彩のテクスチャと反射を区別する必要があります。

これらの複雑なパターンにより、3D再構築プロセスが不明瞭になります。通常、正常なキャプチャでは、場面のクリーンな写真に対して、虹彩のテクスチャが混在することはありません。この構成により、再構築技術はより困難になり、ピクセルの相関が崩れます。角膜のポーズの推定は、2つ目の困難を提示します。画像観察から正確に位置を特定することが困難であり、小さく、難解な目です。ただし、それらの位置と3D方向の正確さは、マルチビュー再構築にとって重要です。

これらの困難を克服するために、この研究の著者は、虹彩テクスチャを全体的な輝度場から区別しやすくするために、2つの重要な要素を追加して、目の画像でNeRFをトレーニングするためにNeRFを再利用しました。短い放射線を使用したテクスチャ分解(a)およびアイポーズの微調整(b)です。彼らは、現実的なテクスチャを持つ人工的な角膜から反射をキャプチャする写真で複雑な屋内環境の合成データセットを作成して、彼らの技術のパフォーマンスと効果を評価します。彼らはまた、いくつかのアイテムで実際に収集された人工および実際の眼球画像の研究を行い、彼らの方法論のいくつかの設計決定を支援します。

これらが彼らの主な貢献です。

•彼らは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。

•彼らは、目の画像で虹彩テクスチャを分解するための放射状事前分布を導入することで、再構築された輝度場の品質を大幅に向上させています。

•彼らは、アイボールのノイズのあるポーズ推定を減らす角膜ポーズの微調整プロセスを開発することにより、人間の目から特徴を収集する特別な問題を解決しています。

これらの進展により、視線外の3Dシーンを明らかにし、キャプチャするためのアクシデンタルイメージングの広い範囲で研究・開発の新しい機会が生まれました。彼らのウェブサイトには、彼らの開発を実証するいくつかのビデオがあります。

図1は、目の反射を使用して放射輝度場を再構築することを示しています。人間の目は非常に反射します。被写体の目の反射だけを使用して、移動する頭を記録する一連のフレームから彼らが見ている3Dシーンを再構築して表示することができることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google AIは、高いベンチマークパフォーマンスを実現するために、線形モデルの特性を活用した長期予測のための高度な多変量モデル、TSMixerを導入します

近年、正確な時系列予測の重要性は、多くの現実世界のアプリケーションにおいて極めて重要となっています。需要トレンドの予...

AIニュース

「先進的なマルチモーダル生成AIの探求」

イントロダクション テクノロジーの進歩する現代において、興奮すべき展開が現れています – 高度なマルチモーダルジェ...

人工知能

「両方の世界のベスト:人間の開発者とAIの協力者」

「これは、開発者を対象とした生成型AI生産性ツール(例:Github Copilot、ChatGPT、Amazon CodeWhisperer)が構造にどのよう...

AI研究

このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みまし...

機械学習

「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

テキストから画像の生成の最新の進歩により、直感的な自然言語記述から詳細なグラフィックの作成が可能になりました。Stable ...