「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

ZoeDepth is an AI model for multi-domain depth estimation using deep learning.

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部屋で、部屋の一角が他の角よりも視聴者に近いという有名なものです。特定のポイントから見ると、部屋の中のオブジェクトは正常に見えますが、別の位置に移動すると、サイズと形状が変わり、自分の近くに何があるのか、何がないのかがわかりにくくなります。

ただし、これは私たち人間にとっての問題です。通常、私たちはシーンを見るとき、錯覚のトリックがなければ、オブジェクトの奥行きをかなり正確に推定します。一方、コンピュータは視覚処理の基本的な問題である奥行き推定においてはあまり成功していません。

奥行き推定は、カメラとシーン内のオブジェクトとの距離を決定するプロセスです。奥行き推定アルゴリズムは、画像または画像の連続を入力として受け取り、シーンの対応する奥行きマップまたは3D表現を出力します。これは、ロボット工学、自律型車両、仮想現実、拡張現実など、さまざまなアプリケーションでシーンの奥行きを理解するために重要なタスクです。たとえば、安全な自動運転車を持ちたい場合、前方の車までの距離を理解して運転速度を調整することが重要です。

奥行き推定アルゴリズムには、メトリック奥行き推定(MDE)と、シーン内のオブジェクトの相対距離を推定する相対奥行き推定(RDE)の2つの分野があります。

MDEモデルは、マッピング、計画、ナビゲーション、オブジェクト認識、3D再構築、画像編集に役立ちます。ただし、MDEモデルのパフォーマンスは、特に画像の奥行きスケールに大きな差がある場合(たとえば、室内と屋外の画像など)に、複数のデータセットをまたがって単一のモデルをトレーニングする場合に低下することがあります。その結果、現在のMDEモデルは、特定のデータセットにオーバーフィットし、他のデータセットに対してうまく汎化しません。

一方、RDEモデルは、視差を監督手段として使用します。RDEの深さ予測は、画像フレーム間で互いに一貫しているだけで、スケールファクターは不明です。これにより、RDEメソッドは、3D映画を含むさまざまなシーンとデータセットでトレーニングすることができ、モデルの汎用性を向上させるのに役立ちます。ただし、トレードオフとして、RDEで予測される深さにはメトリックな意味がないため、その応用範囲が制限されます。

これらの2つのアプローチを組み合わせたらどうなるでしょうか?私たちは、さまざまなドメインにうまく汎化できる同時に正確なメトリックスケールを保持する奥行き推定モデルを持つことができます。これがZoeDepthが達成したことです。

ZoeDepthの概要。出典:https://arxiv.org/pdf/2302.12288.pdf

ZoeDepthは、MDEとRDEのアプローチを組み合わせた2ステージのフレームワークです。第1ステージは、相対的な深さを推定するためにトレーニングされたエンコーダーデコーダー構造で構成されています。このモデルはさまざまなデータセットでトレーニングされており、汎化性能が向上しています。第2ステージでは、メトリックな深さを推定するためのコンポーネントが追加されます。

このアプローチで使用されるメトリックヘッドのデザインは、単一の深さ値ではなく、各ピクセルに対して一連の深さ値を推定するメトリックビンズモジュールと呼ばれる手法に基づいています。これにより、モデルは各ピクセルに対して可能な深さ値の範囲を捉えることができ、その精度と頑健性を向上させることができます。これにより、シーン内のオブジェクト間の物理的な距離を考慮した正確な深度測定が可能になります。これらのヘッドはメトリックな深度データセットでトレーニングされ、第1ステージと比べて軽量です。

推論においては、分類モデルがエンコーダーの特徴を使用して各画像に適切なヘッドを選択します。これにより、モデルは特定のドメインやシーンのタイプに対して深度推定に特化することができ、相対的な深度の事前トレーニングからも恩恵を受けることができます。最終的に、複数の構成で使用できる柔軟なモデルが得られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ヘルスケアとゲノミクス産業が機械学習とAIで革新する方法」

AIと機械学習は医療研究のやり方を変えつつありますAIが薬剤探索、ゲノミクス、およびタンパク質の折りたたみに革新をもたら...

AI研究

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの?」または「周りの様子はどうですか?」と尋ねたら、人間の多感覚知覚という独特な能力の...

AIニュース

イーロン・マスクのxAI企業は資金に関する憶測に直面しています

最近の出来事で、イーロン・マスクの人工知能ベンチャー、xAIが資金調達活動に関する噂で注目を浴びています。マスクの会社は...

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

データサイエンス

「ソフトウェア開発におけるAIの活用:ソリューション戦略と実装」

この記事では、プロセス、ツールの選択、課題の克服について触れながら、ソフトウェア開発にAIをシームレスに統合するための...

機械学習

「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」

大型言語モデルに関するすべての情報は大きいです。巨大なモデルは、数千台のNVIDIA GPU上で大規模なデータセットをトレーニ...