言語を使って、ロボットが広範な世界をより理解するために

ロボットが広範な世界をより深く理解するための言語使用

マサチューセッツ工科大学の研究者が設計したロボット操作の特徴領域（F3RM）は、2Dイメージとビジョン基盤モデルを使用して3Dシーンを形成することで、ロボットが近くのオブジェクトを識別して掴むのを支援します。

F3RMは、自然言語を使用して人間からの自由なテキストプロンプトを解釈することで、数千のオブジェクトがある現実世界の状況に適用することができます。

セルフィースティックに取り付けられたカメラは、さまざまなポーズで50枚の2Dイメージを撮影し、ニューラル放射場を構築します。その結果、環境の360度の「デジタルツイン」がレンダリングされます。

F3RMは、コントラスティブ言語-イメージプレトレーニング（CLIP）ビジョン基盤モデルを使用してジオメトリをセマンティックデータで強化し、カメラ撮影の2D CLIP特徴を3D表現に再構築します。

数回のデモンストレーションの後、ロボットは指示されると、幾何学的および意味的な知識を適用して以前に遭遇したことのないオブジェクトを掴み、最もスコアの高いオプションを選択します。 MITニュースからフル記事を見る

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

93 out of 132 found this helpful