「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

ZoeDepth is an AI model for multi-domain depth estimation using deep learning.

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部屋で、部屋の一角が他の角よりも視聴者に近いという有名なものです。特定のポイントから見ると、部屋の中のオブジェクトは正常に見えますが、別の位置に移動すると、サイズと形状が変わり、自分の近くに何があるのか、何がないのかがわかりにくくなります。

ただし、これは私たち人間にとっての問題です。通常、私たちはシーンを見るとき、錯覚のトリックがなければ、オブジェクトの奥行きをかなり正確に推定します。一方、コンピュータは視覚処理の基本的な問題である奥行き推定においてはあまり成功していません。

奥行き推定は、カメラとシーン内のオブジェクトとの距離を決定するプロセスです。奥行き推定アルゴリズムは、画像または画像の連続を入力として受け取り、シーンの対応する奥行きマップまたは3D表現を出力します。これは、ロボット工学、自律型車両、仮想現実、拡張現実など、さまざまなアプリケーションでシーンの奥行きを理解するために重要なタスクです。たとえば、安全な自動運転車を持ちたい場合、前方の車までの距離を理解して運転速度を調整することが重要です。

奥行き推定アルゴリズムには、メトリック奥行き推定(MDE)と、シーン内のオブジェクトの相対距離を推定する相対奥行き推定(RDE)の2つの分野があります。

MDEモデルは、マッピング、計画、ナビゲーション、オブジェクト認識、3D再構築、画像編集に役立ちます。ただし、MDEモデルのパフォーマンスは、特に画像の奥行きスケールに大きな差がある場合(たとえば、室内と屋外の画像など)に、複数のデータセットをまたがって単一のモデルをトレーニングする場合に低下することがあります。その結果、現在のMDEモデルは、特定のデータセットにオーバーフィットし、他のデータセットに対してうまく汎化しません。

一方、RDEモデルは、視差を監督手段として使用します。RDEの深さ予測は、画像フレーム間で互いに一貫しているだけで、スケールファクターは不明です。これにより、RDEメソッドは、3D映画を含むさまざまなシーンとデータセットでトレーニングすることができ、モデルの汎用性を向上させるのに役立ちます。ただし、トレードオフとして、RDEで予測される深さにはメトリックな意味がないため、その応用範囲が制限されます。

これらの2つのアプローチを組み合わせたらどうなるでしょうか?私たちは、さまざまなドメインにうまく汎化できる同時に正確なメトリックスケールを保持する奥行き推定モデルを持つことができます。これがZoeDepthが達成したことです。

ZoeDepthの概要。出典:https://arxiv.org/pdf/2302.12288.pdf

ZoeDepthは、MDEとRDEのアプローチを組み合わせた2ステージのフレームワークです。第1ステージは、相対的な深さを推定するためにトレーニングされたエンコーダーデコーダー構造で構成されています。このモデルはさまざまなデータセットでトレーニングされており、汎化性能が向上しています。第2ステージでは、メトリックな深さを推定するためのコンポーネントが追加されます。

このアプローチで使用されるメトリックヘッドのデザインは、単一の深さ値ではなく、各ピクセルに対して一連の深さ値を推定するメトリックビンズモジュールと呼ばれる手法に基づいています。これにより、モデルは各ピクセルに対して可能な深さ値の範囲を捉えることができ、その精度と頑健性を向上させることができます。これにより、シーン内のオブジェクト間の物理的な距離を考慮した正確な深度測定が可能になります。これらのヘッドはメトリックな深度データセットでトレーニングされ、第1ステージと比べて軽量です。

推論においては、分類モデルがエンコーダーの特徴を使用して各画像に適切なヘッドを選択します。これにより、モデルは特定のドメインやシーンのタイプに対して深度推定に特化することができ、相対的な深度の事前トレーニングからも恩恵を受けることができます。最終的に、複数の構成で使用できる柔軟なモデルが得られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

イスラエルの秘密エージェントが強力な生成AIで脅威と戦う方法

イスラエルの名高いセキュリティサービス、シン・ベットは、人工知能(AI)の力を活用してその業務を強化し、重要な脅威を無...

AI研究

新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を...

コンピュータサイエンス

認知的燃焼の引火:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

「技術はシステムに統合されることで飛躍的な進展を遂げますこの記事では、言語モデルを統合したアーキテクチャの取り組みに...

AIニュース

マルチモーダルAI:見て聞くことができる人工知能

人工知能(AI)はその創始以来、長い道のりを歩んできましたが、最近まで、その能力はテキストベースのコミュニケーションと...

人工知能

ミッドジャーニープロンプトのTシャツデザイン

Tシャツビジネス帝国を築きたい場合は、Midjourneyは美しいTシャツデザインを作成するための素晴らしいツールです

AI研究

スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました

3Dシーンモデリングは従来、特定の知識を持つ人々に限られた時間のかかる手続きでした。パブリックドメインには多くの3D素材...