イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者たちは、AIフレームワークを設計しましたこのフレームワークは、言語をRLエージェントの中核的な推論ツールとして使用します

イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者は、言語をRLエージェントの推論ツールとして使用するAIフレームワークを設計しました

近年、深層学習の分野で重要な進展があり、特に自然言語処理(NLP)、自然言語理解(NLU)、コンピュータビジョン(CV)などの人工知能の人気のあるサブフィールドで顕著な成果が出ています。大規模言語モデル(LLM)はNLPのフレームワークで作成され、人間の才能と同等の優れた言語処理能力やテキスト生成能力を示しています。一方、CVのVision Transformers(ViTs)は明示的なガイドなしに、写真や動画から意味のある表現を学習することができました。また、Vision-linguistic Models(VLMs)も開発されており、視覚的な入力と言語的な記述を結びつけることができます。

様々な入力モダリティを含む幅広い下流アプリケーションの基礎モデルは、大量のテキストデータとビジュアルデータで事前学習されており、常識的な推論、サブゴールの提案と順序付け、視覚的理解などの重要な属性が生まれています。Foundation Modelsの能力を活用してより効果的で包括的な強化学習(RL)エージェントを作成する可能性は、研究者の研究対象です。RLエージェントは、周囲との相互作用やフィードバックとしての報酬を通じて知識を獲得することが多いですが、試行錯誤による学習は時間がかかり、実用的ではありません。

この制約に対処するため、研究者のチームは、特にゼロから学習が必要なシナリオで、言語を強化学習ロボットエージェントの中核に据えるフレームワークを提案しました。彼らの研究の主な貢献は、Foundation Modelsに保持された知識を活用することにより、特に4つのRL設定でいくつかの基本的な問題に効果的に対処できることを示すことです。

  1. 報酬が少ない設定での効率的な探索:報酬が少ない設定を探索することはRLエージェントにとって困難であり、最適な振る舞いを学習することが頻繁に難しいです。提案されたアプローチは、Foundation Modelsに保持された知識を活用することで、これらのコンテキストでの探索と学習をより効果的に行うことができます。
  1. 過去に収集したデータの再利用による連続学習:このフレームワークにより、RLエージェントは新しいタスクに取り組む際に毎回ゼロから始めるのではなく、以前に収集したデータを基に学習を進めることができ、新しいタスクの連続学習を支援します。
  1. 新しいタスクのための学習済みの能力のスケジューリング:このフレームワークは、学習済みの能力のスケジューリングをサポートし、エージェントが現在の知識を効率的に活用して新しいタスクに対処できるようにします。
  1. エキスパートエージェントの観察からの学習:Foundation Modelsを使用してエキスパートエージェントの観察から学習することで、学習プロセスをより効率的かつ迅速に行うことができます。

研究チームは、主な貢献を以下のようにまとめています:

  1. このフレームワークは、言語モデルとビジョン言語モデルを基礎的な推論ツールとして使用することで、RLエージェントがテキスト情報に基づいてより効果的に推論と判断を行う能力を向上させます。この方法により、エージェントの困難なタスクと状況への理解力が向上します。
  1. 提案されたフレームワークは、過去には異なる特別に作成されたアルゴリズムが必要だった基本的なRLの問題を効率的に解決する効果を示します。
  1. この新しいフレームワークは、報酬が少ないロボット操作の設定で従来のベースライン技術を上回る性能を発揮します。
  2. このフレームワークは、以前に教えられたスキルを効率的に使用してタスクを完了することができます。学習済みの情報を新しい状況に転送する能力により、RLエージェントの一般化と適応性が向上します。
  1. このフレームワークは、人間の専門家の映像を模倣することによってRLエージェントが観察から正確に学習できることを示します。

まとめると、この研究は、言語モデルとビジョン言語モデルが強化学習エージェントの推論の中核として機能する能力を持っていることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ステーブル拡散」は実際にどのように機能するのでしょうか?直感的な説明

この短い記事では、初心者に対して安定した拡散(Stable Diffusion)が直感的にどのように機能するかを説明していますこれは...

人工知能

「安定拡散を使用したハイパーリアルな顔を生成する3つの方法」

あなたはベースモデルを使用してイメージを生成する方法を学び、画像の品質を向上するためにStable Diffusion XLモデルにアッ...

AI研究

ディープマインドのこの機械学習研究は、動的な環境での高度な計画に対してベクトル量子化モデル(VQ)を導入しています

技術の絶え間ない進歩により、人間の脳力を模倣することで、人間と同じように思考し学習することができるようになった人工知...

データサイエンス

ソフトウェアテストにおける機械学習

ソフトウェアテストにおける機械学習とは、高度なアルゴリズムとデータ駆動型のアプローチを使用してテストプロセスを自動化...

コンピュータサイエンス

「A.I. Doomerismの白熱の中心に入ってみよう」

安全を重視するA.I.スタートアップのAnthropicは、ChatGPTと競争しながらA.I.の黙示録を防ぐことを試みています少しストレス...

コンピュータサイエンス

「AIイノベーションのためのニューロエボリューションの活用」

イントロダクション ニューロエボリューションは、AIがニューラルネットワークと進化アルゴリズムを組み合わせて創造力を育む...