ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました

「ワビとトロント大学の研究者が開発した効率的なトランスフォーマベースのAIモデル、LabelFormerでオートラベリングのオブジェクト軌跡を洗練!」

現代の自動運転システムでは、交通参加者を認識するためのオブジェクト検出器を訓練するために、広範な手動注釈付きデータセットが頻繁に使用されています。最近、自動的にセンサーデータのラベルを生成する自動ラベリング手法が注目されています。自動ラベリングは、計算コストが人の注釈付けよりも少なく、生成されるラベルが同等の品質である場合、人の注釈付けの費用の一部で非常に大きなデータセットを提供することができます。そうすることで、より正確な認識モデルをこれらの自動ラベリングされたデータセットを使用してトレーニングすることができます。多くの自動運転プラットフォームで主要なセンサーとして使用されているLiDARは、その後に入力として使用されます。さらに、彼らは自動ラベリングがグラウンドトゥルースラベルのコレクションを使用してトレーニングされることがある監督シナリオに焦点を当てています。 

この問題設定はオフボードパーセプションとしても知られており、リアルタイムの制約を持たず、オンボードパーセプションとは異なり、将来の観測にアクセスできます。図1に示すように、最も人気のあるモデルは、2つのステップでオフボードパーセプションの問題を解決しています。人の注釈付け手法から着想を得て、「検出してから追跡する」というフレームワークを使用して、最初にオブジェクトとその粗いバウンディングボックストラジェクトリを取得し、各オブジェクトトラックを独立して洗練します。最初のステージの主な目標は、可能な限り多くのオブジェクトをシーンで追跡することであり、高い再現性を得ることを目指しています。一方、第2ステージは、より高品質のバウンディングボックスを生成するためにトラックの洗練に集中しています。彼らは2番目のステップを「トラジェクトリ洗練」と呼び、これが研究の主題です。 

図1:2つのステップで行われる自動ラベリングのパラダイム。最初のステップでは、検出してから追跡する方法を使用して粗いオブジェクトの軌跡を収集します。それぞれの軌跡は第2のステップで個別に洗練されます。

オブジェクトの遮蔽の管理、範囲が広がるにつれての観測の疎薄さ、およびオブジェクトのさまざまなサイズと運動パターンは、この作業を困難にします。これらの問題に対処するためには、完全なオブジェクトの軌跡の時間的な文脈を効率的かつ効果的に活用できるモデルが設計される必要があります。しかし、現在の技術は、サブ最適なスライディングウィンドウの方法で動的なオブジェクトの軌跡を処理するために設計されているため、十分な時間的文脈を計算予算内に収めるために、制約された時間的文脈で各時間ステップで個別にニューラルネットワークを適用して特徴量を抽出するという方法は不十分です。これはより効率的であり、特徴はいくつかの重複するウィンドウで同じフレームから繰り返し取得されるためです。したがって、これらの構造は計算予算内にとどまるために比較的少ない時間的文脈を活用します。 

さらに、以前の試みでは、複雑なパイプラインを使用して複数の異なるネットワーク(例:静的オブジェクトと動的オブジェクトの異なる処理への適用)を扱う必要があり、これは構築、デバッグ、およびメンテナンスが困難です。異なるアプローチをとることで、Waabiとトロント大学の研究者は、この論文でLabelFormerを提供し、簡単で効果的かつ経済的なトラジェクトリ洗練技術を提供しています。彼らは完全な時間環境を利用してより正確なバウンディングボックスを生成します。さらに、彼らのソリューションは計算効率において現在のウィンドウベースのアプローチよりも優れており、人の注釈付けに対して自動ラベリングには明確な優位性を提供します。このために、彼らは、初期のバウンディングボックスパラメータと各時間ステップのLiDAR観測を個別にエンコードした後、セルフアテンションブロックを使用したトランスフォーマーベースのアーキテクチャを作成します。 

彼らのアプローチは、完全な軌跡を1回のショットで洗練することにより、不必要な演算を排除し、推論中に追跡される各アイテムごとに1回しか使用する必要がありません。また、彼らの設計は以前の方法よりもはるかに簡単であり、静的および動的なオブジェクトを簡単に処理します。彼らのハイウェイと都市のデータセットに対する包括的な実験評価によって、彼らの方法はウィンドウベースの方法よりも速く、より高いパフォーマンスを提供することが示されています。彼らはまた、LabelFormerがより正確な検出を提供するために人間のデータ単独または他のオートラベラーと比較してより大きなデータセットを自動的にラベル付けできることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

内を見つめる

バイオセンシングは医療診断をより深いレベルにまで引き上げます

AI研究

グーグルの研究者たちは、差分プライバシーを持つ機械学習システムの監査において、新たなシングルランアプローチを発表しました

差分プライバシー(DP)は、モデルの訓練に使用される個人データのプライバシーを保護するための機械学習のよく知られた技術...

AIニュース

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエ...

機械学習

RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野...

AI研究

カルテックとETHチューリッヒの研究者が画期的な拡散モデルを導入:最先端のビジュアルタスクと異なるドメインへの適応を実現するためのテキストキャプションの活用

拡散モデルは、テキストから画像の生成を革新し、古典的な機械学習のタスクにおいて新たな可能性を解き放っています。しかし...

AI研究

中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る

大型言語モデルは最近、自然言語処理におけるパラダイムの変化をもたらし、以前には考えられなかった言語の創造、理解、推論...