ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています
This AI research proposes using rewards expressed in code as a flexible interface between LLM and an optimization-based motion controller, allowing a robotic dog to perform the moonwalk in MJ style.
人工知能産業は近年世界を席巻しています。新しい研究やモデルがほぼ毎日リリースされ、AIは進化し、より良くなっています。医療分野、教育、マーケティング、ビジネス分野を考慮しても、人工知能と機械学習のプラクティスが産業の運営方法を変え始めています。大規模言語モデル(LLMs)の導入は、ほぼすべての組織に採用されています。GPT-3.5やGPT-4などの有名なLLMは、新しい文脈に対して驚異的な適応性を示し、最小限のハンドクラフトされたサンプルで論理的推論やコード生成などのタスクを可能にしています。
研究者たちは、LLMをロボット制御の改善に活用することも考えています。低レベルのロボット操作はハードウェアに依存しており、LLMトレーニングデータに頻繁に未表示のため、ロボティクスにLLMを適用することは困難です。以前のアプローチでは、LLMを意味論的プランナーとして見なすか、人間が作成した制御プリミティブに依存してロボットと通信する必要がありました。すべての課題に対処するため、Google DeepMindの研究者たちは、報酬関数の適応性と最適化のポテンシャルを活用して、様々なロボット活動を実行する新しいパラダイムを導入しました。
報酬関数は、LLMが定義した中間インターフェースとして機能し、後でロボット制御戦略を指示するために最適化されることができます。これらの関数は、高レベルの言語コマンドまたは訂正を低レベルのロボットの動作に効率的に接続できるため、LLMによって仕様が可能です。チームは、報酬関数を言語と低レベルのロボットアクションのインタフェースとして使用することにより、人間の言語指示がしばしば特定の低レベルのアクションではなく行動結果を記述することが観察されたことから、より高い抽象度で操作することができると述べています。指示を報酬に接続することにより、望ましい結果に関連する深い意味が報酬に捉えられるため、言語とロボットの行動のギャップを埋めるのが容易になります。
- メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました
- ChatGPTの哲学コース:このAI研究は、対話エージェントのLLMの振る舞いを探究します
- Google Researchにおける責任あるAI 社会的善のためのAI
このパラダイムには、インタラクティブな行動開発を可能にするMuJoCo MPC(モデル予測制御)リアルタイム最適化器が使用されています。ユーザーが即座に結果を観察し、システムに入力を提供できるため、反復改善プロセスが改善されました。評価プロセスについては、研究者のチームが、シミュレートされた四足ロボットと器用なマニピュレータロボットの両方に対して17のタスクセットを設計しました。この方法は、設計されたタスクの90%を信頼性の高いパフォーマンスで達成できました。一方、Code-as-policiesをインターフェースとして使用するベースライン戦略は、タスクの50%しか完了できませんでした。実際のロボットアームに対する実験も行われ、インタラクティブシステムは、非把持性プッシングなどの複雑な操作スキルを示しました。
結論として、このアプローチは、LLMを報酬パラメータを定義し、ロボット制御のために最適化するために活用することができる有望な手段です。LLM生成の報酬とリアルタイム最適化技術の組み合わせは、反応性とフィードバック駆動の行動作成プロセスを示し、ユーザーがより効率的かつ効果的に複雑なロボット行動を達成することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します
- バイデン政権は、チップ研究の取り組みにGoogleの議長を起用します
- トヨタのAIにより、電気自動車の設計がより迅速になりました
- Covid-19の多様な変異株に対応する多目的ワクチンの作成
- マックス・プランク研究所の研究者たちは、MIME(3D人間モーションキャプチャを取得し、その動きに一致する可能性のある3Dシーンを生成する生成AIモデル)を提案しています
- UCサンディエゴとクアルコムの研究者たちは「Natural Program」を公開しましたそれは自然言語での厳密な推論チェーンの容易な検証にとって強力なツールであり、AIにおける大きな転換点となります
- 中国の研究者グループが開発したWebGLM:汎用言語モデル(GLM)に基づくWeb強化型質問応答システム