ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています

This AI research proposes using rewards expressed in code as a flexible interface between LLM and an optimization-based motion controller, allowing a robotic dog to perform the moonwalk in MJ style.

人工知能産業は近年世界を席巻しています。新しい研究やモデルがほぼ毎日リリースされ、AIは進化し、より良くなっています。医療分野、教育、マーケティング、ビジネス分野を考慮しても、人工知能と機械学習のプラクティスが産業の運営方法を変え始めています。大規模言語モデル(LLMs)の導入は、ほぼすべての組織に採用されています。GPT-3.5やGPT-4などの有名なLLMは、新しい文脈に対して驚異的な適応性を示し、最小限のハンドクラフトされたサンプルで論理的推論やコード生成などのタスクを可能にしています。

研究者たちは、LLMをロボット制御の改善に活用することも考えています。低レベルのロボット操作はハードウェアに依存しており、LLMトレーニングデータに頻繁に未表示のため、ロボティクスにLLMを適用することは困難です。以前のアプローチでは、LLMを意味論的プランナーとして見なすか、人間が作成した制御プリミティブに依存してロボットと通信する必要がありました。すべての課題に対処するため、Google DeepMindの研究者たちは、報酬関数の適応性と最適化のポテンシャルを活用して、様々なロボット活動を実行する新しいパラダイムを導入しました。

報酬関数は、LLMが定義した中間インターフェースとして機能し、後でロボット制御戦略を指示するために最適化されることができます。これらの関数は、高レベルの言語コマンドまたは訂正を低レベルのロボットの動作に効率的に接続できるため、LLMによって仕様が可能です。チームは、報酬関数を言語と低レベルのロボットアクションのインタフェースとして使用することにより、人間の言語指示がしばしば特定の低レベルのアクションではなく行動結果を記述することが観察されたことから、より高い抽象度で操作することができると述べています。指示を報酬に接続することにより、望ましい結果に関連する深い意味が報酬に捉えられるため、言語とロボットの行動のギャップを埋めるのが容易になります。

このパラダイムには、インタラクティブな行動開発を可能にするMuJoCo MPC(モデル予測制御)リアルタイム最適化器が使用されています。ユーザーが即座に結果を観察し、システムに入力を提供できるため、反復改善プロセスが改善されました。評価プロセスについては、研究者のチームが、シミュレートされた四足ロボットと器用なマニピュレータロボットの両方に対して17のタスクセットを設計しました。この方法は、設計されたタスクの90%を信頼性の高いパフォーマンスで達成できました。一方、Code-as-policiesをインターフェースとして使用するベースライン戦略は、タスクの50%しか完了できませんでした。実際のロボットアームに対する実験も行われ、インタラクティブシステムは、非把持性プッシングなどの複雑な操作スキルを示しました。

結論として、このアプローチは、LLMを報酬パラメータを定義し、ロボット制御のために最適化するために活用することができる有望な手段です。LLM生成の報酬とリアルタイム最適化技術の組み合わせは、反応性とフィードバック駆動の行動作成プロセスを示し、ユーザーがより効率的かつ効果的に複雑なロボット行動を達成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

古い地図を使って、失われた地域の3Dデジタルモデルに変換する

研究者たちは、新しい機械学習の技術を用いて、古いサンボーン火災保険地図を歴史的な地域の三次元デジタルモデルに変換しました

データサイエンス

Hamiltonを使って、8分でAirflowのDAGの作成とメンテナンスを簡単にしましょう

この投稿では、2つのオープンソースプロジェクト、HamiltonとAirflowの利点と、それらの有向非循環グラフ(DAG)が連携して動...

AI研究

IBMの研究者が、深層学習推論のためのアナログAIチップを紹介:スケーラブルなミックスドシグナルアーキテクチャの重要な構成要素を披露

AI革命が進行中であり、ライフスタイルや職場を再構築することが期待されています。深層ニューラルネットワーク(DNN)は、基...

機械学習

「DreamPose」というAIフレームワークを使用して、ファッション画像を見事な写真のようなビデオに変換します

ファッション写真は、ソーシャルメディアやEコマースのウェブサイトなど、オンラインプラットフォームで広く使われています。...

人工知能

「テキストから音声を生成する方法:AIモデルBarkを使用する」

紹介 Barkは、Suno.aiが作成したオープンソースの完全生成的なテキストから音声へのモデルであり、背景音、音楽、単純な効果...

AIニュース

「AI安全性の議論がシリコンバレーを引き裂いている」

OpenAIのリーダーシップのドラマは、AIの安全重視技術専門家と自由主義的なテクノ楽観主義者の激しい論争の中で最新の火花と...