言語を使って、ロボットが広範な世界をより理解するために

ロボットが広範な世界をより深く理解するための言語使用

ロボット操作の特徴領域(F3RM)は、自然言語を使用して自由なテキストプロンプトを解釈し、機械が馴染みのないオブジェクトを操作するのを支援します。 ¶ クレジット:Ge Yang et al.

マサチューセッツ工科大学の研究者が設計したロボット操作の特徴領域(F3RM)は、2Dイメージとビジョン基盤モデルを使用して3Dシーンを形成することで、ロボットが近くのオブジェクトを識別して掴むのを支援します。

F3RMは、自然言語を使用して人間からの自由なテキストプロンプトを解釈することで、数千のオブジェクトがある現実世界の状況に適用することができます。

セルフィースティックに取り付けられたカメラは、さまざまなポーズで50枚の2Dイメージを撮影し、ニューラル放射場を構築します。その結果、環境の360度の「デジタルツイン」がレンダリングされます。

F3RMは、コントラスティブ言語-イメージプレトレーニング(CLIP)ビジョン基盤モデルを使用してジオメトリをセマンティックデータで強化し、カメラ撮影の2D CLIP特徴を3D表現に再構築します。

数回のデモンストレーションの後、ロボットは指示されると、幾何学的および意味的な知識を適用して以前に遭遇したことのないオブジェクトを掴み、最もスコアの高いオプションを選択します。 MITニュースから フル記事を見る

要約著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIがインターネット・オブ・シングスの世界をどのように革新しているのか?」

AIソリューションを活用した高度なIoTは、私たちの世界を変えつつあり、私たちの生活のあらゆる領域に浸透していますAIとIoT...

データサイエンス

Deep Learningモデルのトレーニングをスーパーチャージ

90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないとい...

データサイエンス

デット (物体検出用トランスフォーマー)

注意:この記事は、コンピュータビジョンの複雑な世界について探求し、特にトランスフォーマーとアテンションメカニズムに焦...

機械学習

「機械学習が間違いを comitte たとき、それはどういう意味ですか?」

「ML/AIに関する議論で、私たちの通常の「ミステイク(間違い)」の定義は意味をなすでしょうか?もしそうでない場合、なぜで...

AI研究

GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント

Googleは、Google Labsから最新の実験的な提供であるNotebookLMを発表しています。以前はProject Tailwindとして知られていた...

データサイエンス

Python におけるカテゴリカル変数の扱い方ガイド

データサイエンスまたは機械学習プロジェクトでのカテゴリ変数の扱いは容易な仕事ではありませんこの種の作業には、アプリケ...