アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ

「アップルの研究者による『大規模な言語モデル強化学習ポリシー(LLaRP)』:視覚的課題の実現を目指し、汎用的なポリシーとして機能するLLMをAIアプローチでカスタマイズ」

自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量のテキスト資料でトレーニングされているため、言語認識能力において他を圧倒しています。彼らの有用性は、言語関連の活動を超えて、具現化思考、推論、視覚理解、対話システム、コード開発、さらにはロボット制御などの様々な領域で非常に優れたスキルを発揮しています。

これらの能力の多くが、専門的なトレーニングデータの要件なしに現れることは非常に興味深く、これらのモデルの理解力が広範かつ汎用的であることを示しています。LLMは、言語で簡単に表現できない入力と出力を処理する能力を持っています。また、出力としてロボットの命令を提供したり、入力として画像を理解したりすることもできます。

具現化AIでは、他のタスクに移植可能で汎用的な判断を行うエージェントを開発することを目標としています。従来、LLMを具現化AIに活用するための主要な進歩の源は、大量の異なる専門的データを必要とする静的データセットでした。代わりに、具現AIシミュレータの支援を受けて、エージェントは相互作用、探索、報酬フィードバックを通じて仮想設定で学習することができます。しかし、このようなエージェントの汎化能力は、他の領域で示された能力に比べて十分ではありません。

最近の研究では、研究チームが「大規模言語モデル強化学習ポリシー(LLaRP)」と呼ばれる新しいアプローチを提案しています。これにより、LLMを一般化可能な具現化視覚タスクのポリシーとしてカスタマイズすることができます。このアプローチでは、事前にトレーニングされた固定されたLLMが、テキストの命令と視覚的な自己中心の観察をリアルタイムで処理し、環境内でアクションを生成します。LLaRPは、強化学習を通じて環境を感知し、それとのエンカウンターを通じてのみ行動するようにトレーニングされています。

チームが共有した研究の主な結果は次のとおりです。

  1. 複雑な言い回しへの堅牢性:LLaRPは、タスクの指示の複雑な表現への驚異的な耐性を示します。つまり、意図した動作を維持しながら、さまざまな方法で与えられた指示を理解して実行することができます。同じタスクに対して新しい言語の言い回しに適応することができます。
  1. 新しいタスクへの一般化:LLaRPの注目すべき特徴の1つは、一般化能力です。完全にオリジナルかつ理想的な振る舞いを要求する新しい任務を引き受ける能力があります。トレーニング中に経験したことのないタスクにも適応することで、その多様性と適応性を示します。
  1. 驚異的な成功率:LLaRPは、1,000の未知のタスクのセットに対して驚異的な42%の成功率を示しました。他のよく使われる学習ベースラインやゼロショットのLLMアプリケーションと比較すると、この成功率は1.7倍以上です。これは、LLaRPアプローチの優れたパフォーマンスと一般化能力を示しています。
  1. ベンチマークの公開:言語依存の大規模マルチタスク具現化AIの課題について研究コミュニティの理解を向上させるために、研究チームは「言語の並べ替え」という新しいベンチマークを公開しました。このベンチマークには、言語に依存した並べ替えのための150,000のトレーニングタスクと1,000のテストタスクを備えた大規模なデータセットが含まれています。これは、この分野のAIについてさらに学び、開発したい研究者にとって素晴らしいツールです。

まとめると、LLaRPは、具現化視覚タスクに事前にトレーニングされたLLMを適応させる素晴らしいアプローチであり、全体的に、堅牢性と一般化能力において非常に優れた成果を上げています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting(CF3DGS)を提案しています

ニューラルレンダリングの進歩により、シーンの再構築や新しい視点の生成において重要なブレイクスルーがもたらされました。...

AI研究

このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナ...

機械学習

「言語モデルの微調整を革命化する:NEFTuneのノイズ付き埋め込みで達成する前例のない向上」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screen...

機械学習

M42がMed42を導入:医療知識へのアクセス拡大のためのオープンアクセスクリニカル大規模言語モデル(LLM)

M42ヘルスは、アブダビ、UAEに拠点を置き、有望な新しいオープンアクセスの臨床大規模言語モデルであるMed42を発表しました。...

データサイエンス

言語学習モデルにおけるOpenAIの関数呼び出しの力:包括的なガイド

OpenAIの関数呼び出し機能を使用したデータパイプラインの変換:PostgreSQLとFastAPIを使用した電子メール送信ワークフローの...

機械学習

「FraudGPTと出会ってください:ChatGPTのダークサイドの双子」

ChatGPTは人々の仕事やオンラインでの検索内容に影響を与え、人気を集めています。AIチャットボットの潜在能力に興味を持つ人...