ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました

「ワビとトロント大学の研究者が開発した効率的なトランスフォーマベースのAIモデル、LabelFormerでオートラベリングのオブジェクト軌跡を洗練!」

現代の自動運転システムでは、交通参加者を認識するためのオブジェクト検出器を訓練するために、広範な手動注釈付きデータセットが頻繁に使用されています。最近、自動的にセンサーデータのラベルを生成する自動ラベリング手法が注目されています。自動ラベリングは、計算コストが人の注釈付けよりも少なく、生成されるラベルが同等の品質である場合、人の注釈付けの費用の一部で非常に大きなデータセットを提供することができます。そうすることで、より正確な認識モデルをこれらの自動ラベリングされたデータセットを使用してトレーニングすることができます。多くの自動運転プラットフォームで主要なセンサーとして使用されているLiDARは、その後に入力として使用されます。さらに、彼らは自動ラベリングがグラウンドトゥルースラベルのコレクションを使用してトレーニングされることがある監督シナリオに焦点を当てています。 

この問題設定はオフボードパーセプションとしても知られており、リアルタイムの制約を持たず、オンボードパーセプションとは異なり、将来の観測にアクセスできます。図1に示すように、最も人気のあるモデルは、2つのステップでオフボードパーセプションの問題を解決しています。人の注釈付け手法から着想を得て、「検出してから追跡する」というフレームワークを使用して、最初にオブジェクトとその粗いバウンディングボックストラジェクトリを取得し、各オブジェクトトラックを独立して洗練します。最初のステージの主な目標は、可能な限り多くのオブジェクトをシーンで追跡することであり、高い再現性を得ることを目指しています。一方、第2ステージは、より高品質のバウンディングボックスを生成するためにトラックの洗練に集中しています。彼らは2番目のステップを「トラジェクトリ洗練」と呼び、これが研究の主題です。 

図1:2つのステップで行われる自動ラベリングのパラダイム。最初のステップでは、検出してから追跡する方法を使用して粗いオブジェクトの軌跡を収集します。それぞれの軌跡は第2のステップで個別に洗練されます。

オブジェクトの遮蔽の管理、範囲が広がるにつれての観測の疎薄さ、およびオブジェクトのさまざまなサイズと運動パターンは、この作業を困難にします。これらの問題に対処するためには、完全なオブジェクトの軌跡の時間的な文脈を効率的かつ効果的に活用できるモデルが設計される必要があります。しかし、現在の技術は、サブ最適なスライディングウィンドウの方法で動的なオブジェクトの軌跡を処理するために設計されているため、十分な時間的文脈を計算予算内に収めるために、制約された時間的文脈で各時間ステップで個別にニューラルネットワークを適用して特徴量を抽出するという方法は不十分です。これはより効率的であり、特徴はいくつかの重複するウィンドウで同じフレームから繰り返し取得されるためです。したがって、これらの構造は計算予算内にとどまるために比較的少ない時間的文脈を活用します。 

さらに、以前の試みでは、複雑なパイプラインを使用して複数の異なるネットワーク(例:静的オブジェクトと動的オブジェクトの異なる処理への適用)を扱う必要があり、これは構築、デバッグ、およびメンテナンスが困難です。異なるアプローチをとることで、Waabiとトロント大学の研究者は、この論文でLabelFormerを提供し、簡単で効果的かつ経済的なトラジェクトリ洗練技術を提供しています。彼らは完全な時間環境を利用してより正確なバウンディングボックスを生成します。さらに、彼らのソリューションは計算効率において現在のウィンドウベースのアプローチよりも優れており、人の注釈付けに対して自動ラベリングには明確な優位性を提供します。このために、彼らは、初期のバウンディングボックスパラメータと各時間ステップのLiDAR観測を個別にエンコードした後、セルフアテンションブロックを使用したトランスフォーマーベースのアーキテクチャを作成します。 

彼らのアプローチは、完全な軌跡を1回のショットで洗練することにより、不必要な演算を排除し、推論中に追跡される各アイテムごとに1回しか使用する必要がありません。また、彼らの設計は以前の方法よりもはるかに簡単であり、静的および動的なオブジェクトを簡単に処理します。彼らのハイウェイと都市のデータセットに対する包括的な実験評価によって、彼らの方法はウィンドウベースの方法よりも速く、より高いパフォーマンスを提供することが示されています。彼らはまた、LabelFormerがより正確な検出を提供するために人間のデータ単独または他のオートラベラーと比較してより大きなデータセットを自動的にラベル付けできることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保す...

データサイエンス

『Python NumbaとCUDA Cを使用したバッチK-Means』

データ分析のワークロードを並列化することは、特に特定のユースケースに対して効率的な既製の実装がない場合、困難な作業に...

AIニュース

マルチモーダルAI:見て聞くことができる人工知能

人工知能(AI)はその創始以来、長い道のりを歩んできましたが、最近まで、その能力はテキストベースのコミュニケーションと...

AI研究

アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての...

人工知能

「2023年のAIに関するガートナー・ハイプ・サイクル」

新しい生成AI技術の登場により、AIの景観が急速に進化したことについて掘り下げましょう

機械学習

「One-2-3-45++に出会ってみましょう:おおよその1分で単一の画像を詳細な3Dテクスチャメッシュに変換する革新的な人工知能手法」

UCサンディエゴ、浙江大学、清華大学、UCLA、およびスタンフォード大学の研究者たちは、高速かつ高品質な3Dオブジェクト生成...