ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました
「ワビとトロント大学の研究者が開発した効率的なトランスフォーマベースのAIモデル、LabelFormerでオートラベリングのオブジェクト軌跡を洗練!」
現代の自動運転システムでは、交通参加者を認識するためのオブジェクト検出器を訓練するために、広範な手動注釈付きデータセットが頻繁に使用されています。最近、自動的にセンサーデータのラベルを生成する自動ラベリング手法が注目されています。自動ラベリングは、計算コストが人の注釈付けよりも少なく、生成されるラベルが同等の品質である場合、人の注釈付けの費用の一部で非常に大きなデータセットを提供することができます。そうすることで、より正確な認識モデルをこれらの自動ラベリングされたデータセットを使用してトレーニングすることができます。多くの自動運転プラットフォームで主要なセンサーとして使用されているLiDARは、その後に入力として使用されます。さらに、彼らは自動ラベリングがグラウンドトゥルースラベルのコレクションを使用してトレーニングされることがある監督シナリオに焦点を当てています。
この問題設定はオフボードパーセプションとしても知られており、リアルタイムの制約を持たず、オンボードパーセプションとは異なり、将来の観測にアクセスできます。図1に示すように、最も人気のあるモデルは、2つのステップでオフボードパーセプションの問題を解決しています。人の注釈付け手法から着想を得て、「検出してから追跡する」というフレームワークを使用して、最初にオブジェクトとその粗いバウンディングボックストラジェクトリを取得し、各オブジェクトトラックを独立して洗練します。最初のステージの主な目標は、可能な限り多くのオブジェクトをシーンで追跡することであり、高い再現性を得ることを目指しています。一方、第2ステージは、より高品質のバウンディングボックスを生成するためにトラックの洗練に集中しています。彼らは2番目のステップを「トラジェクトリ洗練」と呼び、これが研究の主題です。
図1:2つのステップで行われる自動ラベリングのパラダイム。最初のステップでは、検出してから追跡する方法を使用して粗いオブジェクトの軌跡を収集します。それぞれの軌跡は第2のステップで個別に洗練されます。
- 「NVIDIA CUDA Quantumによる研究者の進歩が期待される」
- ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します
- MITの研究者たちは、SmartEMというAI技術を開発しましたこの技術は、リアルタイムの機械学習を画像処理にシームレスに統合することで、電子顕微鏡を次のレベルに進化させます
オブジェクトの遮蔽の管理、範囲が広がるにつれての観測の疎薄さ、およびオブジェクトのさまざまなサイズと運動パターンは、この作業を困難にします。これらの問題に対処するためには、完全なオブジェクトの軌跡の時間的な文脈を効率的かつ効果的に活用できるモデルが設計される必要があります。しかし、現在の技術は、サブ最適なスライディングウィンドウの方法で動的なオブジェクトの軌跡を処理するために設計されているため、十分な時間的文脈を計算予算内に収めるために、制約された時間的文脈で各時間ステップで個別にニューラルネットワークを適用して特徴量を抽出するという方法は不十分です。これはより効率的であり、特徴はいくつかの重複するウィンドウで同じフレームから繰り返し取得されるためです。したがって、これらの構造は計算予算内にとどまるために比較的少ない時間的文脈を活用します。
さらに、以前の試みでは、複雑なパイプラインを使用して複数の異なるネットワーク(例:静的オブジェクトと動的オブジェクトの異なる処理への適用)を扱う必要があり、これは構築、デバッグ、およびメンテナンスが困難です。異なるアプローチをとることで、Waabiとトロント大学の研究者は、この論文でLabelFormerを提供し、簡単で効果的かつ経済的なトラジェクトリ洗練技術を提供しています。彼らは完全な時間環境を利用してより正確なバウンディングボックスを生成します。さらに、彼らのソリューションは計算効率において現在のウィンドウベースのアプローチよりも優れており、人の注釈付けに対して自動ラベリングには明確な優位性を提供します。このために、彼らは、初期のバウンディングボックスパラメータと各時間ステップのLiDAR観測を個別にエンコードした後、セルフアテンションブロックを使用したトランスフォーマーベースのアーキテクチャを作成します。
彼らのアプローチは、完全な軌跡を1回のショットで洗練することにより、不必要な演算を排除し、推論中に追跡される各アイテムごとに1回しか使用する必要がありません。また、彼らの設計は以前の方法よりもはるかに簡単であり、静的および動的なオブジェクトを簡単に処理します。彼らのハイウェイと都市のデータセットに対する包括的な実験評価によって、彼らの方法はウィンドウベースの方法よりも速く、より高いパフォーマンスを提供することが示されています。彼らはまた、LabelFormerがより正確な検出を提供するために人間のデータ単独または他のオートラベラーと比較してより大きなデータセットを自動的にラベル付けできることを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル
- このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します
- 「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクの速度とパフォーマンスを劇的に向上させることができる、2つの補完的な技術を開発しました」
- Google DeepMindの研究者たちは、人工汎用知能(AGI)モデルとそれらの前身の能力と行動を分類するためのフレームワークを提案しています
- ケンブリッジの研究者たちは、マシンラーニングを利用した仮想現実アプリケーションを開発し、ユーザーが仮想現実空間でツールを開いたり制御したりする「超人的な」能力を持つことができるようにしました
- UCバークレーとスタンフォードの研究者チームがS-LoRAを発表:多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム
- メタリサーチャーズがVR-NeRFを紹介:高精細なキャプチャーと仮想現実の歩行可能な空間のレンダリングのための先進的なエンドツーエンドAIシステム