ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています

This AI research proposes using rewards expressed in code as a flexible interface between LLM and an optimization-based motion controller, allowing a robotic dog to perform the moonwalk in MJ style.

人工知能産業は近年世界を席巻しています。新しい研究やモデルがほぼ毎日リリースされ、AIは進化し、より良くなっています。医療分野、教育、マーケティング、ビジネス分野を考慮しても、人工知能と機械学習のプラクティスが産業の運営方法を変え始めています。大規模言語モデル(LLMs)の導入は、ほぼすべての組織に採用されています。GPT-3.5やGPT-4などの有名なLLMは、新しい文脈に対して驚異的な適応性を示し、最小限のハンドクラフトされたサンプルで論理的推論やコード生成などのタスクを可能にしています。

研究者たちは、LLMをロボット制御の改善に活用することも考えています。低レベルのロボット操作はハードウェアに依存しており、LLMトレーニングデータに頻繁に未表示のため、ロボティクスにLLMを適用することは困難です。以前のアプローチでは、LLMを意味論的プランナーとして見なすか、人間が作成した制御プリミティブに依存してロボットと通信する必要がありました。すべての課題に対処するため、Google DeepMindの研究者たちは、報酬関数の適応性と最適化のポテンシャルを活用して、様々なロボット活動を実行する新しいパラダイムを導入しました。

報酬関数は、LLMが定義した中間インターフェースとして機能し、後でロボット制御戦略を指示するために最適化されることができます。これらの関数は、高レベルの言語コマンドまたは訂正を低レベルのロボットの動作に効率的に接続できるため、LLMによって仕様が可能です。チームは、報酬関数を言語と低レベルのロボットアクションのインタフェースとして使用することにより、人間の言語指示がしばしば特定の低レベルのアクションではなく行動結果を記述することが観察されたことから、より高い抽象度で操作することができると述べています。指示を報酬に接続することにより、望ましい結果に関連する深い意味が報酬に捉えられるため、言語とロボットの行動のギャップを埋めるのが容易になります。

このパラダイムには、インタラクティブな行動開発を可能にするMuJoCo MPC(モデル予測制御)リアルタイム最適化器が使用されています。ユーザーが即座に結果を観察し、システムに入力を提供できるため、反復改善プロセスが改善されました。評価プロセスについては、研究者のチームが、シミュレートされた四足ロボットと器用なマニピュレータロボットの両方に対して17のタスクセットを設計しました。この方法は、設計されたタスクの90%を信頼性の高いパフォーマンスで達成できました。一方、Code-as-policiesをインターフェースとして使用するベースライン戦略は、タスクの50%しか完了できませんでした。実際のロボットアームに対する実験も行われ、インタラクティブシステムは、非把持性プッシングなどの複雑な操作スキルを示しました。

結論として、このアプローチは、LLMを報酬パラメータを定義し、ロボット制御のために最適化するために活用することができる有望な手段です。LLM生成の報酬とリアルタイム最適化技術の組み合わせは、反応性とフィードバック駆動の行動作成プロセスを示し、ユーザーがより効率的かつ効果的に複雑なロボット行動を達成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ティーンエイジャーたちはAIのリテラシーを広げることを推進する

一部のティーンエイジャーは、彼らの学校により広範なAI学習経験を提供するよう要望しています

コンピュータサイエンス

このツールは、AIによる画像の操作からあなたの写真を保護することができます

「PhotoGuard」は、MITの研究者によって作成されたもので、我々には感知できない方法で写真を変更することで、AIシステムがそ...

機械学習

「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル(LLM)は、教育、コンテンツ制作、医療、研究などの様々な領域...

データサイエンス

中国の最新のAI研究により、「OMMO」と呼ばれる大規模な屋外マルチモーダルデータセットと新しい視点合成および暗黙的なシーン再構築のためのベンチマークが紹介されました

最近の暗黙的な脳表現の進歩により、写真のような新しい視点の合成と高品質な表面再構築が可能になりました。残念ながら、現...

機械学習

AIにおける意識の可能性の評価:神経科学理論に基づく指標特性の科学的探求

AIシステムが意識を持つ可能性は現在の注目のトピックです。トップの研究者たちは、人間の意識に関連する脳のプロセスからイ...

機械学習

「メタのCode Llamaコード生成モデルは、Amazon SageMaker JumpStartを介して利用可能になりました」

今日は、Metaが開発したCode Llama foundationモデルが、Amazon SageMaker JumpStartを通じて顧客に提供され、クリックひとつ...