「MITとハーバードの研究者が提案する(FAn):SOTAコンピュータビジョンとロボティクスシステムの間のギャップを埋める包括的なAIシステム- 任意のオブジェクトのセグメンテーション、検出、追跡、および追従のためのエンドツーエンドのソリューションを提供する」

MIT and Harvard researchers propose a comprehensive AI system (FAn) to bridge the gap between state-of-the-art computer vision and robotics systems, providing an end-to-end solution for segmentation, detection, tracking, and following of any object.

MITとハーバード大学の研究者チームが新しいAI研究で、画期的なフレームワーク「Follow Anything」(FAn)を紹介しました。このシステムは、現在の物体追跡ロボットシステムの制約を解決し、リアルタイムでのオープンセット物体追跡と追従の革新的な解決策を提供しています。

既存のロボット物体追跡システムの主な欠点は、認識されるカテゴリの固定セットと、対象物体の指定における利便性の欠如による新しいオブジェクトの収容能力の制約です。新しいFAnシステムは、テキスト、画像、またはクリッククエリを介して新しいオブジェクトに適応しながら、幅広い物体をシームレスに検出、セグメント化、追跡、追従するオープンセットアプローチを提案することで、これらの問題に取り組んでいます。

提案されたFAnシステムの主な特徴は次のとおりです:

オープンセットマルチモーダルアプローチ:FAnは、カテゴリに関係なく、与えられた環境内の任意の物体のリアルタイム検出、セグメンテーション、追跡、追従を容易にする新しい手法を導入しています。

統一的な展開:このシステムは、マイクロエアリアルビークルに焦点を当てたロボットプラットフォームへの簡単な展開を設計しており、実用的なアプリケーションへの効率的な統合を可能にしています。

堅牢性:このシステムは、トラッキングプロセス中に追跡されるオブジェクトが遮られたり一時的に見失われたりするシナリオを処理するための再検出メカニズムを組み込んでいます。

FAnシステムの基本的な目的は、オンボードカメラを搭載したロボットシステムが興味のあるオブジェクトを識別し、追跡することです。これには、ロボットが移動する中でオブジェクトがカメラの視野内に留まることを確認する必要があります。

FAnは、この目標を達成するために最先端のVision Transformer(ViT)モデルを活用しています。これらのモデルはリアルタイム処理に最適化され、一体化されたシステムに統合されています。研究者たちは、セグメンテーションのためのSegment Anything Model(SAM)、自然言語から視覚的な概念を学習するためのDINOとCLIP、そして軽量の検出と意味セグメンテーションスキームなど、さまざまなモデルの強みを活用しています。また、リアルタイムのトラッキングは(Seg)AOTとSiamMaskモデルを使用して容易に行われます。オブジェクト追従プロセスを制御するために、軽量のビジュアルサービングコントローラも導入されています。

研究者たちは、FAnの性能をさまざまなオブジェクトでゼロショット検出、追跡、追従のシナリオで評価するために包括的な実験を行いました。その結果、システムはリアルタイムで興味のあるオブジェクトを追跡する能力がシームレスかつ効率的であることが示されました。

結論として、FAnフレームワークはクローズドセットシステムの制約を排除し、リアルタイムの物体追跡と追従の包括的な解決策を提供します。オープンセットの性質、マルチモーダルの互換性、リアルタイム処理、新しい環境への適応性により、それはロボティクスにおける重要な進歩です。さらに、チームがシステムのオープンソース化に取り組んでいることは、幅広い実世界のアプリケーションに利益をもたらす可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「タコ」の複雑な細胞は彼らの高い知能の鍵です

研究者たちは、自動組織準備と新しい機械学習再構築アルゴリズムを用いて、タコの学習プロセスを定義する神経の構造を探索し...

機械学習

「ロジスティック回帰:直感と実装」

ロジスティック回帰は、2つの異なるデータ属性の間の決定境界を学習できる基本的な二値分類アルゴリズムですこの記事では、理...

データサイエンス

「JAXとHaikuを使用してゼロからTransformerエンコーダを実装する🤖」

2017年に「アテンションはすべて」という画期的な論文で紹介されたトランスフォーマーアーキテクチャは、最近の深層学習の歴...

機械学習

ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみ...

AI研究

スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています

我々は皆、ChatGPTやBardなどの驚異的な生成モデル、およびそれらの基盤技術であるGPT3やGPT4などの開発競争がAI界を大きく揺...