チューリッヒ大学の研究者たちは、スイフトという自律型ビジョンベースのドローンを開発しましたこのドローンは、いくつかの公平なヘッドトゥヘッドレースで人間の世界チャンピオンに勝つことができます

チューリッヒ大学の研究者たちは、スイフトというドローンを開発し、人間の世界チャンピオンに勝つことができます

ファーストパーソンビュー（FPV）ドローンレーシングは、特殊なFPVゴーグルを使用してパイロットがファーストパーソン視点からレーシングドローンを制御する、刺激的で急速に成長しているスポーツです。このスポーツでは、ドローンはパワフルなモーター、軽量なフレーム、高品質なカメラを備え、低遅延のビデオ伝送が可能です。パイロットはドローンのカメラからのライブビデオフィードを提供するFPVゴーグルを装着しています。この没入型の体験により、彼らはリアルタイムでドローンが見ているものを見ることができます。

人間のチャンピオンをレースで破ることができる自律型のモバイルドローンは可能でしょうか？チューリッヒ大学のロボティクスとパーセプショングループの研究者たちは、物理的なビークルと同等のレベルで競争することができる「SWIFT」というドローンシステムを開発しました。Swiftは、センサーを使用してサーキット内での速度と位置を推定しながら、物理的な限界で飛行することができます。

Swiftは、シミュレーションで収集されたデータと共にディープ強化学習（RL）を組み合わせています。それは高次元の表現を変換する知覚システムと、知覚システムによって生成された低次元の表現を取り込み、制御コマンドを持つ制御ポリシーで構成されています。

知覚システムには、ビジュアル慣性推定器とゲート検出器（レーシングゲートを検出するCNN）が含まれています。検出されたゲートは、ドローンの軌跡とトラック上で必要なドローンの方向を推定するためにさらに使用されます。Swiftは、トラックの地図と組み合わせたカメラリセクションアルゴリズムを使用して、この分析を行います。より正確なドローンの方向を得るために、ゲート検出器から得られたグローバルポーズとフィルターを使用して、視覚慣性推定器を利用します。

制御ポリシーには、フィルターの出力をドローンの制御コマンドにマッピングする2層のパーセプトロンがあり、次のゲートをカメラの視野に保つことにより知覚目標を最大化します。次のゲートを見ることは有望です、なぜならそれはポーズ推定の精度を高めるからです。ただし、シミュレーションでこれらの方法を純粋に最適化すると、シミュレーションと実際の間に不一致がある場合にはパフォーマンスが低下します。

シミュレートされたダイナミクスと実際のダイナミクスの違いは、ドローンが間違った軌跡を選択し、クラッシュにつながる原因となります。安全な軌跡に影響を与えるもう一つの要因は、ドローンの状態のノイズのある推定です。チームは、ドローンがトラックを通過する間、モーションキャプチャシステムからの高精度な推定を伴うオンボードセンサーを使用して、実世界でわずかな量のデータを収集し、このデータをシミュレータの現実性を高めるために使用していると述べています。

研究者は、Swiftがほとんどのレースで人間のパイロットに勝ち、最速のレースタイムを記録し、人間のパイロットの最速タイムよりも0.5秒優位に立っていると述べています。彼らは、ターンで人間のパイロットよりも一貫して速く、ポジャムからの離陸時の反応時間が人間のパイロットよりも平均で120ミリ秒早いと述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionDeep learningEditors PickLanguage modelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

チューリッヒ大学の研究者たちは、スイフトという自律型ビジョンベースのドローンを開発しましたこのドローンは、いくつかの公平なヘッドトゥヘッドレースで人間の世界チャンピオンに勝つことができます

Was this article helpful?

データセットシフトのフレームワークの整理：例

「トランスフォーマーアーキテクチャとBERT、GPT、T5の台頭：初心者向けガイド」

AI研究

「仕事は続けられますが、同じ仕事ではありません」

MITとCUHKの研究者たちは、LLM（Long Context Large Language Models）に対して効率的なファインチューニングAIアプローチであるLongLoRA（Long Low-Rank Adaptation）を提案しています

「言語モデルは放射線科を革新することができるのか？Radiology-Llama2に会ってみてください：指示調整というプロセスを通じて特化した大規模な言語モデル」

「CMUの研究者たちは、スロット中心のモデル（Slot-TTA）を用いたテスト時の適応を提案していますこれは、シーンを共通してセグメント化し、再構築するスロット中心のボトルネックを備えた半教師付きモデルです」

「BLIVAと出会ってください：テキスト豊かなビジュアル質問をより良く扱うためのマルチモーダルな大規模言語モデル」

コーネル大学とテルアビブ大学の研究者が、ドッペルゲンガーを紹介します：似た構造の画像を区別するための学習