「CMUの研究者たちがRoboToolを公開:自然言語の指示を受け取り、シミュレーション環境と実世界のロボットを制御するための実行可能なコードを出力するAIシステム」

「CMUの研究者たちがRoboToolを公開:自然言語で指示を受け取り、シミュレーション環境と実世界のロボットを制御するAIシステムの実行可能なコード」

カーネギーメロン大学とGoogle DeepMindの研究者が協力して、RoboToolと呼ばれるシステムを開発しました。このシステムは大規模な言語モデル(LLM)を活用して、ロボットに物理的な制約や長期的な計画に関わるタスクで創造的にツールを使用させる能力を与えます。このシステムは以下の4つの主要なコンポーネントで構成されています:

  1. 自然言語の解釈を行うアナライザー
  2. 戦略を生成するプランナー
  3. パラメータを計算する計算機
  4. 計画を実行可能なPythonコードに変換するコーダー

GPT-4を使用したRoboToolは、従来のタスクとモーションプランニングの方法に比べて、複雑なロボティクスタスクに対する柔軟で効率的かつユーザーフレンドリーなソリューションを提供することを目指しています。

この研究は、ロボットがツールを創造的に使用するという課題に取り組んでおり、動物がツールを使用する際の知性に類似したものです。これは、ロボットがツールを単に予定された目的のために使用するだけでなく、柔軟な解決策を提供するために創造的かつ非伝統的な方法でツールを使用することの重要性を強調しています。従来のタスクとモーションプランニング(TAMP)の方法は、暗黙の制約を伴うタスクの処理において見直す必要があり、計算コストも高くなる傾向があります。大規模な言語モデル(LLM)は、ロボティクスタスクに有益な知識をエンコードすることで有望な成果を示しています。

この研究は、ツールの選択、順次ツールの使用、および製造など、創造的なツール使用能力を評価するためのベンチマークを導入しています。提案されたRoboToolは、シミュレートおよび実世界の環境で評価され、創造的なツール使用がなければ困難なタスクの処理能力を実証しています。このシステムの成功率は、ベースラインの方法を上回り、暗黙的な制約を伴う複雑な長期的な計画タスクの解決における効果を示しています。

評価は、以下の3種類のエラーを計算することで行われました:

  1. ツール使用エラーは、正しいツールが使用されているかを示します
  2. 論理エラーは、ツールの誤った順序での使用や提供された制約の無視などの計画エラーに焦点を当てます
  3. 数値エラーは、誤った目標位置の計算や間違ったオフセットの追加などの計算エラーを含みます

アナライザーを使用しないRoboToolは、大きなツール使用エラーがあり、計算機を使用しないRoboToolは、ロボツールと比べて大きな数値エラーがあります。これは、それぞれの役割がモデルにおいて果たしていることを示しています。

まとめると、言語モデルを活用したRoboToolは、暗黙的な物理的な制約を持つ長期的な計画問題を解決する能力を持つ創造的なロボットツールユーザーです。このシステムのキー概念の識別、創造的な計画の生成、パラメータの計算、実行可能なコードの生成は、創造的なツール使用が必要な複雑なロボティクスタスクの処理に貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ロボ犬が100メートル走のギネス世界記録を樹立

ギネスワールドレコーズは、韓国科学技術院のチームが作成した犬のようなロボットを、最速の四足歩行ロボットと認定しました

データサイエンス

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研...

人工知能

クロードAIに無料でアクセスする3つの方法

定期購読料なしで、主要な対話型AIモデルの1つを体験してください

機械学習

AI「ブレイクスルー」:ニューラルネットが人間と同様の言語の一般化能力を持つ

「ニューラルネットワークを用いた人工知能は、人間の知能の重要な側面である新しい言葉を素早く取り入れる点で、ChatGPTを上...

AIニュース

テクノロジー・イノベーション・インスティテュートは、最新鋭のFalcon LLM 40BファウンデーションモデルをAmazon SageMakerでトレーニングします

このブログ投稿は、AI-Cross Centerユニットの執行役員であり、TIIのLLMプロジェクトのプロジェクトリーダーであるDr. Ebtesa...

機械学習

『私をすばやく中心に置いてください:主題拡散は、オープンドメインのパーソナライズされたテキストから画像生成を実現できるAIモデルです』

テキストから画像へのモデルは、過去1年間のAIの議論の中心でした。この分野の進歩は非常に迅速に起こり、その結果、印象的な...