ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

『ユリーカとお会いしましょう:人間レベルの報酬設計アルゴリズムを持つ大規模な言語モデル』

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。しかし、NVIDIA、UPenn、Caltech、UT Austinの研究者チームは、EUREKAと呼ばれるアルゴリズムを開発しました。EUREKAは、GPT-4などの高度なLLMを使用して、強化学習を通じた複雑なスキル獲得のための報酬関数を作成します。EUREKAは、人間が設計した報酬よりも安全で高品質なヒントを提供し、ヒューマンフィードバックに基づいた勾配のない文脈学習により、画期的な成果を上げました。このブレイクスルーは、シミュレートされたShadow Handがペン回しのトリックを習得するというLLMを活用したスキル獲得の道を開くものです。

強化学習における報酬の設計は課題となっており、既存の手法では手動のトライアンドエラー、逆強化学習など、よりスケーラブルで適応性のある手法が必要とされています。EUREKAは、LLMを利用してリアルタイムで報酬を向上させるために解釈可能な報酬コードを生成する方法を提案しています。以前の研究では意思決定のためにLLMが用いられてきましたが、EUREKAは低レベルのスキル学習タスクへの適用において画期的であり、初期の候補やフューショットのプロンプトを必要とせず、LLMと進化アルゴリズムを組み合わせた報酬設計を先駆的に行っています。

LLMは高レベルの計画に秀でていますが、ペン回しのような低レベルのスキルにはサポートが必要です。強化学習における報酬設計はしばしば時間のかかるトライアンドエラーに頼っています。彼らの研究は、GPT-4などの高度なコーディングLLMを活用し、自律的にさまざまなタスクの報酬関数を作成して、多様な環境で人間による報酬を上回る成果を収めました。EUREKAはまた、ヒューマンフィードバックからの文脈学習を可能にし、報酬の品質と安全性を向上させます。これにより、マニュアルによる報酬設計では不可能な緻密な操作タスクへの取り組みを可能にしています。

EUREKAは、GPT-4などのLLMによって駆動される報酬設計アルゴリズムであり、29の強化学習環境において優れた成果を収めています。モデルの更新を必要とせず、ヒューマンフィードバック(RLHF)からの文脈学習を活用して報酬の品質と安全性を向上させます。EUREKAの報酬は、シミュレートされたShadow Handがペン回しや高速のペン操作をマスターするためのトレーニングを可能にします。これにより、進化アルゴリズムとLLMを組み合わせた報酬設計が実現され、初期の候補やフューショットのプロンプトが不要となり、強化学習の重要な進歩を示しています。

EUREKAは、L2Rを上回り、報酬の生成表現性を示しています。EUREKAは一貫して改善し、最良の報酬は最終的には人間の基準を上回ります。それは、人間と弱い相関を持つユニークな報酬を作成し、直感に反する設計原則を明らかにする可能性があります。報酬の反映は、高次元のタスクでのパフォーマンスを向上させます。カリキュラム学習と共に、EUREKAはシミュレートされたShadow Handを使って緻密なペン回しのタスクに成功します。

EUREKAは、LLMの力を借りて人間レベルの報酬生成を達成し、タスクの83%で平均52%の向上を遂げます。LLMを進化アルゴリズムと組み合わせることは、困難で開放的な問題における報酬設計のための多目的かつスケーラブルなアプローチを証明します。EUREKAの器用さは、カリキュラム学習を使って緻密なペン回しのような複雑なタスクを解決することで明らかです。その適応性と劇的な性能向上は、多様な強化学習と報酬設計の応用において有望です。

将来の研究の方向性には、EUREKAの適応性と性能をさらに多様で複雑な環境や異なるロボット設計で評価することが含まれます。シミュレーションを超えた現実世界での適用可能性を評価することは重要です。モデルベースの手法やメタ学習などの強化学習技術との相乗効果を探求することで、EUREKAの機能をさらに向上させることができます。EUREKAが生成した報酬関数の解釈可能性についての調査は、その意思決定プロセスの理解のために不可欠です。人間のフィードバックの統合を強化し、ロボット技術以外のさまざまな領域でのEUREKAの可能性を探求することは、有望な方向性です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『Audio-LDMを使用してテキストを音声に変換する完全ガイド』

Audio-LDMモデルを使用して、テキストから音声生成の力を解き放つAIの力

機械学習

PyTorchを使った効率的な画像セグメンテーション:パート1

この4部作では、PyTorchを使用して深層学習技術を使った画像セグメンテーションをゼロから段階的に実装しますシリーズを開始...

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

AI研究

「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」

世界中の学術機関と協力して、NVIDIAの研究者は< a href=”https://www.voagi.com/ai-for-sustainable-banking-reduc...

機械学習

「生成AIの風景を探索する」

ジェネレーティブAIは、特にニューラルネットワークを用いて、与えられたデータセット内のパターンを解読するために、さまざ...

機械学習

SalesForce AIはCodeChainを導入:代表的なサブモジュールによる自己改訂の連鎖を通じたモジュラーコード生成のための革新的な人工知能フレームワーク

“`html 人工知能の研究における重要な目標の一つは、困難な問題に対処するための有用なコンピュータプログラムを提供で...