アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ

「アップルの研究者による『大規模な言語モデル強化学習ポリシー(LLaRP)』:視覚的課題の実現を目指し、汎用的なポリシーとして機能するLLMをAIアプローチでカスタマイズ」

自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量のテキスト資料でトレーニングされているため、言語認識能力において他を圧倒しています。彼らの有用性は、言語関連の活動を超えて、具現化思考、推論、視覚理解、対話システム、コード開発、さらにはロボット制御などの様々な領域で非常に優れたスキルを発揮しています。

これらの能力の多くが、専門的なトレーニングデータの要件なしに現れることは非常に興味深く、これらのモデルの理解力が広範かつ汎用的であることを示しています。LLMは、言語で簡単に表現できない入力と出力を処理する能力を持っています。また、出力としてロボットの命令を提供したり、入力として画像を理解したりすることもできます。

具現化AIでは、他のタスクに移植可能で汎用的な判断を行うエージェントを開発することを目標としています。従来、LLMを具現化AIに活用するための主要な進歩の源は、大量の異なる専門的データを必要とする静的データセットでした。代わりに、具現AIシミュレータの支援を受けて、エージェントは相互作用、探索、報酬フィードバックを通じて仮想設定で学習することができます。しかし、このようなエージェントの汎化能力は、他の領域で示された能力に比べて十分ではありません。

最近の研究では、研究チームが「大規模言語モデル強化学習ポリシー(LLaRP)」と呼ばれる新しいアプローチを提案しています。これにより、LLMを一般化可能な具現化視覚タスクのポリシーとしてカスタマイズすることができます。このアプローチでは、事前にトレーニングされた固定されたLLMが、テキストの命令と視覚的な自己中心の観察をリアルタイムで処理し、環境内でアクションを生成します。LLaRPは、強化学習を通じて環境を感知し、それとのエンカウンターを通じてのみ行動するようにトレーニングされています。

チームが共有した研究の主な結果は次のとおりです。

  1. 複雑な言い回しへの堅牢性:LLaRPは、タスクの指示の複雑な表現への驚異的な耐性を示します。つまり、意図した動作を維持しながら、さまざまな方法で与えられた指示を理解して実行することができます。同じタスクに対して新しい言語の言い回しに適応することができます。
  1. 新しいタスクへの一般化:LLaRPの注目すべき特徴の1つは、一般化能力です。完全にオリジナルかつ理想的な振る舞いを要求する新しい任務を引き受ける能力があります。トレーニング中に経験したことのないタスクにも適応することで、その多様性と適応性を示します。
  1. 驚異的な成功率:LLaRPは、1,000の未知のタスクのセットに対して驚異的な42%の成功率を示しました。他のよく使われる学習ベースラインやゼロショットのLLMアプリケーションと比較すると、この成功率は1.7倍以上です。これは、LLaRPアプローチの優れたパフォーマンスと一般化能力を示しています。
  1. ベンチマークの公開:言語依存の大規模マルチタスク具現化AIの課題について研究コミュニティの理解を向上させるために、研究チームは「言語の並べ替え」という新しいベンチマークを公開しました。このベンチマークには、言語に依存した並べ替えのための150,000のトレーニングタスクと1,000のテストタスクを備えた大規模なデータセットが含まれています。これは、この分野のAIについてさらに学び、開発したい研究者にとって素晴らしいツールです。

まとめると、LLaRPは、具現化視覚タスクに事前にトレーニングされたLLMを適応させる素晴らしいアプローチであり、全体的に、堅牢性と一般化能力において非常に優れた成果を上げています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「VSCodeをDatabricksと統合して、データエンジニアリングのパイプラインとモデルを構築および実行する」

「データブリックスクラスタを使用して、ローカルでデータエンジニアリングパイプラインと機械学習モデルを開発しますVSCode...

AI研究

「DeepMindの研究者たちは、AlphaStar Unpluggedを紹介しました:リアルタイムストラテジーゲームStarCraft IIの大規模なオフライン強化学習において、飛躍的な進歩を遂げました」

ゲームは長い間、人工知能(AI)システムの能力を評価するための重要なテスト場として機能してきました。AI技術が進化するに...

AI研究

清華大学の研究者たちは、潜在意味モデル(LCM)を提案しました:潜在拡散モデル(LDM)の次世代の生成AIモデル

“`HTML 潜在的な一貫性モデル(LCMs)は、潜在空間で拡張確率流ODEソリューションを直接予測することにより、高解像度の...

データサイエンス

Btech卒業後に何をすべきですか?

Btechの後に何をすべきですか?このよくある質問は、最終学年や最近卒業した学生にとって悩みの種です。多くの人々が従来のキ...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

AI研究

天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します

2050年までに、極端な天候や気候の頻度と厳しさが増すことにより、ミュンヘン再保険会社によれば、年間100万人の命が失われ、...