Learn more about Search Results kMaX-DeepLab
- You may be interested
- マイクロソフトとETHチューリッヒの研究者...
- アイドルアプリの自動シャットダウンを使...
- もし、口頭および書面によるコミュニケー...
- エアライン事業で情報とモデルを明らかに...
- 「データから次に最適な質問をどのように...
- 自分のハードウェアでのコード理解
- 中国の強力なNvidia AIチップの隠れた市場
- ONNXモデル | オープンニューラルネットワ...
- 「Amazonが処方せんのドローン配送をテス...
- 「ポッドキャスティングのためのトップAI...
- 「AlphaFold 2の2億モデルによって明らか...
- AIの物体認識をどのように進化させること...
- 「アルテアナのアートスクワッド」が結成...
- このAI論文は、’リラックス:エンド...
- 「AIデザインスタジオ、OpenAIによってグ...
Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました
自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります。このようなタスクは、自動車に取り付けられた特殊なレーザーが3Dデータをキャプチャすることで容易に行われます。このようなプロセスは、エゴセントリックシーン理解と呼ばれ、自身の視点から環境を理解することを意味します。問題は、エゴセントリックな人間のシーン理解に適用できる公開データセットが自動運転領域を超えて存在しないことです。 Googleの研究者たちは、人間のエゴセントリックなシーン理解のためのマルチ属性ビデオデータセットであるSANPO(Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance)データセットを導入しました。SANPOには、SANPO-RealとSANPO-Syntheticの2つの実世界データと合成データが含まれています。SANPO-Realは多様な環境をカバーしており、マルチビュー手法をサポートするために2つのステレオカメラからのビデオが含まれています。実データセットには、15フレーム/秒(FPS)でキャプチャされた11.4時間のビデオと密な注釈が含まれています。 SANPOは、エゴセントリックな人間のシーン理解のための大規模なビデオデータセットであり、密な予測注釈を持つ60万以上の実世界および10万以上の合成フレームから成り立っています。 Googleの研究者たちは、プライバシー保護を優先しています。彼らは現地、市、および州の法律に従ってデータを収集しています。また、注釈のためにデータを送信する前に、顔や車両ナンバープレートなどの個人情報を削除するようにしています。 ビデオのキャプチャ中のモーションブラー、人間の評価ミスなどの欠点を克服するために、SANPO-Syntheticが導入されました。研究者は、実世界の環境に合わせて最適化された高品質な合成データセットを作成するために、Parallel Domainと提携しました。SANPO-Syntheticには、バーチャル化されたZedカメラを使用して記録された1961のセッションが含まれており、ヘッドマウントとチェストマウントの位置の均等な分布があります。 合成データセットと一部の実データセットは、パノプティックインスタンスマスクを使用して注釈が付けられました。SANPO-Realでは、フレームごとに20を超えるインスタンスがあるのはわずかです。それに対して、SANPO-Syntheticには実データセットよりもずっと多くのインスタンスが含まれています。 この分野での他の重要なビデオデータセットには、SCAND、MuSoHu、Ego4D、VIPSeg、Waymo Openなどがあります。SANPOはこれらのデータセットと比較され、パノプティックマスク、深度、カメラ姿勢、マルチビューステレオ、実データと合成データを兼ね備える最初のデータセットです。SANPOの他に、パノプティックセグメンテーションと深度マップを兼ね備えたデータセットはWaymo Openだけです。 研究者は、SANPOデータセット上で2つの最先端モデル、BinsFormer(深度推定)とkMaX-DeepLab(パノプティックセグメンテーション)を訓練しました。彼らは、このデータセットは両方の密な予測タスクにとって非常に挑戦的であることを観察しました。また、合成データセットの方が実データセットよりも精度が高いことも確認されました。これは、現実世界の環境が合成データよりも複雑であるためです。さらに、セグメンテーション注釈においては、合成データの方がより正確です。 人間のエゴセントリックなシーン理解のデータセットの不足に対処するために導入されたSANPOは、実世界と合成データセットの両方を網羅しており、密な注釈、マルチ属性の特徴、パノプティックセグメンテーションと深度情報のユニークな組み合わせによって他のデータセットとは異なる存在です。さらに、研究者たちのプライバシーへの取り組みは、視覚障害者のための視覚ナビゲーションシステムの開発をサポートし、高度な視覚シーン理解の可能性を広げるために、このデータセットを他の研究者に提供することができます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.