言語を使って、ロボットが広範な世界をより理解するために

ロボットが広範な世界をより深く理解するための言語使用

ロボット操作の特徴領域(F3RM)は、自然言語を使用して自由なテキストプロンプトを解釈し、機械が馴染みのないオブジェクトを操作するのを支援します。 ¶ クレジット:Ge Yang et al.

マサチューセッツ工科大学の研究者が設計したロボット操作の特徴領域(F3RM)は、2Dイメージとビジョン基盤モデルを使用して3Dシーンを形成することで、ロボットが近くのオブジェクトを識別して掴むのを支援します。

F3RMは、自然言語を使用して人間からの自由なテキストプロンプトを解釈することで、数千のオブジェクトがある現実世界の状況に適用することができます。

セルフィースティックに取り付けられたカメラは、さまざまなポーズで50枚の2Dイメージを撮影し、ニューラル放射場を構築します。その結果、環境の360度の「デジタルツイン」がレンダリングされます。

F3RMは、コントラスティブ言語-イメージプレトレーニング(CLIP)ビジョン基盤モデルを使用してジオメトリをセマンティックデータで強化し、カメラ撮影の2D CLIP特徴を3D表現に再構築します。

数回のデモンストレーションの後、ロボットは指示されると、幾何学的および意味的な知識を適用して以前に遭遇したことのないオブジェクトを掴み、最もスコアの高いオプションを選択します。 MITニュースから フル記事を見る

要約著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

機械学習

「生成モデルを本番環境に展開する際の3つの課題」

OpenAI、Google、Microsoft、Midjourney、StabilityAI、CharacterAIなど、誰もがテキストからテキスト、テキストから画像、画...

機械学習

最初のネイティブLLMは電気通信業界に最適化されました

キネティカのSQL-GPT for Telecomは、ネットワークのパフォーマンスと顧客体験を最適化するためのより高速な分析と対応を可能...

データサイエンス

「ダイナミックな時代のソフトウェアリーダーシップの活路」

ソフトウェア業界でリーダーシップを発揮することが一筋縄ではいかない理由を探求しましょう過去の成功に依存するリスク、無...

データサイエンス

ファインチューニングLLM パラメータ効率の改善 (PEFT) — LoRA および QLoRA — パート1

このブログでは、パラメータ効率的微調整(PEFT)のアイデアを理解し、PEFTの2つの最も重要な手法であるLoRAとQLoRAを探求します

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...