イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者たちは、AIフレームワークを設計しましたこのフレームワークは、言語をRLエージェントの中核的な推論ツールとして使用します

イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者は、言語をRLエージェントの推論ツールとして使用するAIフレームワークを設計しました

近年、深層学習の分野で重要な進展があり、特に自然言語処理(NLP)、自然言語理解(NLU)、コンピュータビジョン(CV)などの人工知能の人気のあるサブフィールドで顕著な成果が出ています。大規模言語モデル(LLM)はNLPのフレームワークで作成され、人間の才能と同等の優れた言語処理能力やテキスト生成能力を示しています。一方、CVのVision Transformers(ViTs)は明示的なガイドなしに、写真や動画から意味のある表現を学習することができました。また、Vision-linguistic Models(VLMs)も開発されており、視覚的な入力と言語的な記述を結びつけることができます。

様々な入力モダリティを含む幅広い下流アプリケーションの基礎モデルは、大量のテキストデータとビジュアルデータで事前学習されており、常識的な推論、サブゴールの提案と順序付け、視覚的理解などの重要な属性が生まれています。Foundation Modelsの能力を活用してより効果的で包括的な強化学習(RL)エージェントを作成する可能性は、研究者の研究対象です。RLエージェントは、周囲との相互作用やフィードバックとしての報酬を通じて知識を獲得することが多いですが、試行錯誤による学習は時間がかかり、実用的ではありません。

この制約に対処するため、研究者のチームは、特にゼロから学習が必要なシナリオで、言語を強化学習ロボットエージェントの中核に据えるフレームワークを提案しました。彼らの研究の主な貢献は、Foundation Modelsに保持された知識を活用することにより、特に4つのRL設定でいくつかの基本的な問題に効果的に対処できることを示すことです。

  1. 報酬が少ない設定での効率的な探索:報酬が少ない設定を探索することはRLエージェントにとって困難であり、最適な振る舞いを学習することが頻繁に難しいです。提案されたアプローチは、Foundation Modelsに保持された知識を活用することで、これらのコンテキストでの探索と学習をより効果的に行うことができます。
  1. 過去に収集したデータの再利用による連続学習:このフレームワークにより、RLエージェントは新しいタスクに取り組む際に毎回ゼロから始めるのではなく、以前に収集したデータを基に学習を進めることができ、新しいタスクの連続学習を支援します。
  1. 新しいタスクのための学習済みの能力のスケジューリング:このフレームワークは、学習済みの能力のスケジューリングをサポートし、エージェントが現在の知識を効率的に活用して新しいタスクに対処できるようにします。
  1. エキスパートエージェントの観察からの学習:Foundation Modelsを使用してエキスパートエージェントの観察から学習することで、学習プロセスをより効率的かつ迅速に行うことができます。

研究チームは、主な貢献を以下のようにまとめています:

  1. このフレームワークは、言語モデルとビジョン言語モデルを基礎的な推論ツールとして使用することで、RLエージェントがテキスト情報に基づいてより効果的に推論と判断を行う能力を向上させます。この方法により、エージェントの困難なタスクと状況への理解力が向上します。
  1. 提案されたフレームワークは、過去には異なる特別に作成されたアルゴリズムが必要だった基本的なRLの問題を効率的に解決する効果を示します。
  1. この新しいフレームワークは、報酬が少ないロボット操作の設定で従来のベースライン技術を上回る性能を発揮します。
  2. このフレームワークは、以前に教えられたスキルを効率的に使用してタスクを完了することができます。学習済みの情報を新しい状況に転送する能力により、RLエージェントの一般化と適応性が向上します。
  1. このフレームワークは、人間の専門家の映像を模倣することによってRLエージェントが観察から正確に学習できることを示します。

まとめると、この研究は、言語モデルとビジョン言語モデルが強化学習エージェントの推論の中核として機能する能力を持っていることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処...

データサイエンス

増強と生産性のための人工知能

「MITシュワルツマンコンピュータ科学大学院は、AIを活用したマネジメントを探求する7つの学際プロジェクトに対してシードグ...

機械学習

「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理(NLP)の複雑さ...

人工知能

マルコフとビネメ・シェビシェフの不等式

「2つの境界の意味と、その発見につながる魅力的で風変わりな出来事を理解する」

機械学習

「目と耳を持つChatGPT:BuboGPTは、マルチモーダルLLMsにおいて視覚的なグラウンディングを可能にするAIアプローチです」

大規模言語モデル(LLM)は、自然言語処理の領域でゲームチェンジャーとして登場しました。彼らは私たちの日常生活の重要な一...

コンピュータサイエンス

A.I.が建築家に職場デザインの変革をもたらす方法

より多くのハイブリッド労働者と新しいオフィスのニーズに対応するため、Zaha Hadid Architectsのような企業は解決策として人...