ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています

This AI research proposes using rewards expressed in code as a flexible interface between LLM and an optimization-based motion controller, allowing a robotic dog to perform the moonwalk in MJ style.

人工知能産業は近年世界を席巻しています。新しい研究やモデルがほぼ毎日リリースされ、AIは進化し、より良くなっています。医療分野、教育、マーケティング、ビジネス分野を考慮しても、人工知能と機械学習のプラクティスが産業の運営方法を変え始めています。大規模言語モデル(LLMs)の導入は、ほぼすべての組織に採用されています。GPT-3.5やGPT-4などの有名なLLMは、新しい文脈に対して驚異的な適応性を示し、最小限のハンドクラフトされたサンプルで論理的推論やコード生成などのタスクを可能にしています。

研究者たちは、LLMをロボット制御の改善に活用することも考えています。低レベルのロボット操作はハードウェアに依存しており、LLMトレーニングデータに頻繁に未表示のため、ロボティクスにLLMを適用することは困難です。以前のアプローチでは、LLMを意味論的プランナーとして見なすか、人間が作成した制御プリミティブに依存してロボットと通信する必要がありました。すべての課題に対処するため、Google DeepMindの研究者たちは、報酬関数の適応性と最適化のポテンシャルを活用して、様々なロボット活動を実行する新しいパラダイムを導入しました。

報酬関数は、LLMが定義した中間インターフェースとして機能し、後でロボット制御戦略を指示するために最適化されることができます。これらの関数は、高レベルの言語コマンドまたは訂正を低レベルのロボットの動作に効率的に接続できるため、LLMによって仕様が可能です。チームは、報酬関数を言語と低レベルのロボットアクションのインタフェースとして使用することにより、人間の言語指示がしばしば特定の低レベルのアクションではなく行動結果を記述することが観察されたことから、より高い抽象度で操作することができると述べています。指示を報酬に接続することにより、望ましい結果に関連する深い意味が報酬に捉えられるため、言語とロボットの行動のギャップを埋めるのが容易になります。

このパラダイムには、インタラクティブな行動開発を可能にするMuJoCo MPC(モデル予測制御)リアルタイム最適化器が使用されています。ユーザーが即座に結果を観察し、システムに入力を提供できるため、反復改善プロセスが改善されました。評価プロセスについては、研究者のチームが、シミュレートされた四足ロボットと器用なマニピュレータロボットの両方に対して17のタスクセットを設計しました。この方法は、設計されたタスクの90%を信頼性の高いパフォーマンスで達成できました。一方、Code-as-policiesをインターフェースとして使用するベースライン戦略は、タスクの50%しか完了できませんでした。実際のロボットアームに対する実験も行われ、インタラクティブシステムは、非把持性プッシングなどの複雑な操作スキルを示しました。

結論として、このアプローチは、LLMを報酬パラメータを定義し、ロボット制御のために最適化するために活用することができる有望な手段です。LLM生成の報酬とリアルタイム最適化技術の組み合わせは、反応性とフィードバック駆動の行動作成プロセスを示し、ユーザーがより効率的かつ効果的に複雑なロボット行動を達成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

グーグルの研究者たちは、差分プライバシーを持つ機械学習システムの監査において、新たなシングルランアプローチを発表しました

差分プライバシー(DP)は、モデルの訓練に使用される個人データのプライバシーを保護するための機械学習のよく知られた技術...

データサイエンス

線形代数4:行列方程式

「線形代数の基礎についての連載シリーズの第四回目へようこそこれは機械学習の基本的な数学である線形代数についての解説で...

AI研究

「オックスフォード大学と西安交通大学の研究者たちが、先端メモリ技術での相変化材料のシミュレーションに向けた革新的な機械学習モデルを発表」

相変化材料の理解と最先端のメモリ技術の開発には、コンピュータシミュレーションの利用が大きなメリットがあります。ただし...

機械学習

Amazon SageMakerのCanvas sentiment analysisとtext analysisモデルを使用して製品レビューから洞察を抽出するために、ノーコードの機械学習を使用してください

ガートナーによると、ソフトウェアの購入者の85%はオンラインのレビューを個人の推薦と同じくらい信頼しています顧客は、レビ...

機械学習

「DiffPoseTalk(デフポーズトーク)をご紹介:新しい音声対応3Dアニメーション人工知能フレームワーク」

音声による表現アニメーションは、コンピュータグラフィックスと人工知能の交差点で複雑な問題であり、話し言葉の入力に基づ...

AI研究

このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です

ファインチューニングされた言語モデルは、しばしば言語エージェントを作成する際に軽視され、特にGoogle検索APIを使用して質...