アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ

「アップルの研究者による『大規模な言語モデル強化学習ポリシー(LLaRP)』:視覚的課題の実現を目指し、汎用的なポリシーとして機能するLLMをAIアプローチでカスタマイズ」

自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量のテキスト資料でトレーニングされているため、言語認識能力において他を圧倒しています。彼らの有用性は、言語関連の活動を超えて、具現化思考、推論、視覚理解、対話システム、コード開発、さらにはロボット制御などの様々な領域で非常に優れたスキルを発揮しています。

これらの能力の多くが、専門的なトレーニングデータの要件なしに現れることは非常に興味深く、これらのモデルの理解力が広範かつ汎用的であることを示しています。LLMは、言語で簡単に表現できない入力と出力を処理する能力を持っています。また、出力としてロボットの命令を提供したり、入力として画像を理解したりすることもできます。

具現化AIでは、他のタスクに移植可能で汎用的な判断を行うエージェントを開発することを目標としています。従来、LLMを具現化AIに活用するための主要な進歩の源は、大量の異なる専門的データを必要とする静的データセットでした。代わりに、具現AIシミュレータの支援を受けて、エージェントは相互作用、探索、報酬フィードバックを通じて仮想設定で学習することができます。しかし、このようなエージェントの汎化能力は、他の領域で示された能力に比べて十分ではありません。

最近の研究では、研究チームが「大規模言語モデル強化学習ポリシー(LLaRP)」と呼ばれる新しいアプローチを提案しています。これにより、LLMを一般化可能な具現化視覚タスクのポリシーとしてカスタマイズすることができます。このアプローチでは、事前にトレーニングされた固定されたLLMが、テキストの命令と視覚的な自己中心の観察をリアルタイムで処理し、環境内でアクションを生成します。LLaRPは、強化学習を通じて環境を感知し、それとのエンカウンターを通じてのみ行動するようにトレーニングされています。

チームが共有した研究の主な結果は次のとおりです。

  1. 複雑な言い回しへの堅牢性:LLaRPは、タスクの指示の複雑な表現への驚異的な耐性を示します。つまり、意図した動作を維持しながら、さまざまな方法で与えられた指示を理解して実行することができます。同じタスクに対して新しい言語の言い回しに適応することができます。
  1. 新しいタスクへの一般化:LLaRPの注目すべき特徴の1つは、一般化能力です。完全にオリジナルかつ理想的な振る舞いを要求する新しい任務を引き受ける能力があります。トレーニング中に経験したことのないタスクにも適応することで、その多様性と適応性を示します。
  1. 驚異的な成功率:LLaRPは、1,000の未知のタスクのセットに対して驚異的な42%の成功率を示しました。他のよく使われる学習ベースラインやゼロショットのLLMアプリケーションと比較すると、この成功率は1.7倍以上です。これは、LLaRPアプローチの優れたパフォーマンスと一般化能力を示しています。
  1. ベンチマークの公開:言語依存の大規模マルチタスク具現化AIの課題について研究コミュニティの理解を向上させるために、研究チームは「言語の並べ替え」という新しいベンチマークを公開しました。このベンチマークには、言語に依存した並べ替えのための150,000のトレーニングタスクと1,000のテストタスクを備えた大規模なデータセットが含まれています。これは、この分野のAIについてさらに学び、開発したい研究者にとって素晴らしいツールです。

まとめると、LLaRPは、具現化視覚タスクに事前にトレーニングされたLLMを適応させる素晴らしいアプローチであり、全体的に、堅牢性と一般化能力において非常に優れた成果を上げています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「密度プロンプティングチェーンでGPT-4サマリゼーションをアンロックする」

「チェーン・オブ・デンシティ(CoD)を使用して、GPT-4要約のパワーを解き放ちましょうCoDは情報密度をバランスさせる技術で...

データサイエンス

「Meta AIは、社会的な具現化されたAIエージェントの開発における3つの主要な進展、Habitat 3.0、Habitat Synthetic Scenes Dataset、およびHomeRobotを紹介します」

Facebook AI Research (FAIR)は、社会的にインテリジェントなロボットの分野を推進することに専念しています。主な目標は、日...

機械学習

「AIのプロセス」

AIはまだ比較的新しい分野と見なされているため、SWEBOKのようなガイドや標準は実際には存在しません実際に、AI/MLの修士課程...

機械学習

LangChain 101 パート1. シンプルなQ&Aアプリの構築

LangChainは、テキストを生成し、質問に答え、言語を翻訳し、その他多くのテキスト関連の作業を行うアプリケーションを作成す...

データサイエンス

機械学習のための高品質データセットの作成初心者ガイド

このチュートリアルでは、高品質なデータを取得し、機械学習の分類結果を改善する方法を紹介します