アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ
「アップルの研究者による『大規模な言語モデル強化学習ポリシー(LLaRP)』:視覚的課題の実現を目指し、汎用的なポリシーとして機能するLLMをAIアプローチでカスタマイズ」
自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量のテキスト資料でトレーニングされているため、言語認識能力において他を圧倒しています。彼らの有用性は、言語関連の活動を超えて、具現化思考、推論、視覚理解、対話システム、コード開発、さらにはロボット制御などの様々な領域で非常に優れたスキルを発揮しています。
これらの能力の多くが、専門的なトレーニングデータの要件なしに現れることは非常に興味深く、これらのモデルの理解力が広範かつ汎用的であることを示しています。LLMは、言語で簡単に表現できない入力と出力を処理する能力を持っています。また、出力としてロボットの命令を提供したり、入力として画像を理解したりすることもできます。
具現化AIでは、他のタスクに移植可能で汎用的な判断を行うエージェントを開発することを目標としています。従来、LLMを具現化AIに活用するための主要な進歩の源は、大量の異なる専門的データを必要とする静的データセットでした。代わりに、具現AIシミュレータの支援を受けて、エージェントは相互作用、探索、報酬フィードバックを通じて仮想設定で学習することができます。しかし、このようなエージェントの汎化能力は、他の領域で示された能力に比べて十分ではありません。
- マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました
- この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します
- UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル
最近の研究では、研究チームが「大規模言語モデル強化学習ポリシー(LLaRP)」と呼ばれる新しいアプローチを提案しています。これにより、LLMを一般化可能な具現化視覚タスクのポリシーとしてカスタマイズすることができます。このアプローチでは、事前にトレーニングされた固定されたLLMが、テキストの命令と視覚的な自己中心の観察をリアルタイムで処理し、環境内でアクションを生成します。LLaRPは、強化学習を通じて環境を感知し、それとのエンカウンターを通じてのみ行動するようにトレーニングされています。
チームが共有した研究の主な結果は次のとおりです。
- 複雑な言い回しへの堅牢性:LLaRPは、タスクの指示の複雑な表現への驚異的な耐性を示します。つまり、意図した動作を維持しながら、さまざまな方法で与えられた指示を理解して実行することができます。同じタスクに対して新しい言語の言い回しに適応することができます。
- 新しいタスクへの一般化:LLaRPの注目すべき特徴の1つは、一般化能力です。完全にオリジナルかつ理想的な振る舞いを要求する新しい任務を引き受ける能力があります。トレーニング中に経験したことのないタスクにも適応することで、その多様性と適応性を示します。
- 驚異的な成功率:LLaRPは、1,000の未知のタスクのセットに対して驚異的な42%の成功率を示しました。他のよく使われる学習ベースラインやゼロショットのLLMアプリケーションと比較すると、この成功率は1.7倍以上です。これは、LLaRPアプローチの優れたパフォーマンスと一般化能力を示しています。
- ベンチマークの公開:言語依存の大規模マルチタスク具現化AIの課題について研究コミュニティの理解を向上させるために、研究チームは「言語の並べ替え」という新しいベンチマークを公開しました。このベンチマークには、言語に依存した並べ替えのための150,000のトレーニングタスクと1,000のテストタスクを備えた大規模なデータセットが含まれています。これは、この分野のAIについてさらに学び、開発したい研究者にとって素晴らしいツールです。
まとめると、LLaRPは、具現化視覚タスクに事前にトレーニングされたLLMを適応させる素晴らしいアプローチであり、全体的に、堅牢性と一般化能力において非常に優れた成果を上げています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「研究者たちが量子エレクトロニクスの切り替えを簡素化する」
- 「このチューリング賞受賞者が伝説的な学術アドバイザーになった経緯」
- Appleの研究者がマトリョーシカ拡散モデル(MDM)を紹介する:高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク
- 中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです
- UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました
- スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです
- UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化