言語を使って、ロボットが広範な世界をより理解するために
ロボットが広範な世界をより深く理解するための言語使用
マサチューセッツ工科大学の研究者が設計したロボット操作の特徴領域(F3RM)は、2Dイメージとビジョン基盤モデルを使用して3Dシーンを形成することで、ロボットが近くのオブジェクトを識別して掴むのを支援します。
F3RMは、自然言語を使用して人間からの自由なテキストプロンプトを解釈することで、数千のオブジェクトがある現実世界の状況に適用することができます。
セルフィースティックに取り付けられたカメラは、さまざまなポーズで50枚の2Dイメージを撮影し、ニューラル放射場を構築します。その結果、環境の360度の「デジタルツイン」がレンダリングされます。
F3RMは、コントラスティブ言語-イメージプレトレーニング(CLIP)ビジョン基盤モデルを使用してジオメトリをセマンティックデータで強化し、カメラ撮影の2D CLIP特徴を3D表現に再構築します。
数回のデモンストレーションの後、ロボットは指示されると、幾何学的および意味的な知識を適用して以前に遭遇したことのないオブジェクトを掴み、最もスコアの高いオプションを選択します。 MITニュースから フル記事を見る
要約著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- (Samsung no AI to chippu gijutsu no mirai e no senken no myōyaku)
- コンピュータービジョンによる車両損傷検出の構築方法
- コヒアAIがコヒアのEmbed v3モデルを公開:信頼できるMTEBとBEIRベンチマークに基づく最先端のパフォーマンスを提供
- 「KOSMOS-2:Microsoftによるマルチモーダルな大規模言語モデル」
- (CodeGPT AIコミュニティで話題となっている新たなコード生成ツールにご紹介します)
- コア42とCerebrasは、Jais 30Bのリリースにより、アラビア語の大規模言語モデルの新たな基準を設定しました
- 「隠れマルコフモデルの力を解読する」