イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者たちは、AIフレームワークを設計しましたこのフレームワークは、言語をRLエージェントの中核的な推論ツールとして使用します

イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者は、言語をRLエージェントの推論ツールとして使用するAIフレームワークを設計しました

近年、深層学習の分野で重要な進展があり、特に自然言語処理(NLP)、自然言語理解(NLU)、コンピュータビジョン(CV)などの人工知能の人気のあるサブフィールドで顕著な成果が出ています。大規模言語モデル(LLM)はNLPのフレームワークで作成され、人間の才能と同等の優れた言語処理能力やテキスト生成能力を示しています。一方、CVのVision Transformers(ViTs)は明示的なガイドなしに、写真や動画から意味のある表現を学習することができました。また、Vision-linguistic Models(VLMs)も開発されており、視覚的な入力と言語的な記述を結びつけることができます。

様々な入力モダリティを含む幅広い下流アプリケーションの基礎モデルは、大量のテキストデータとビジュアルデータで事前学習されており、常識的な推論、サブゴールの提案と順序付け、視覚的理解などの重要な属性が生まれています。Foundation Modelsの能力を活用してより効果的で包括的な強化学習(RL)エージェントを作成する可能性は、研究者の研究対象です。RLエージェントは、周囲との相互作用やフィードバックとしての報酬を通じて知識を獲得することが多いですが、試行錯誤による学習は時間がかかり、実用的ではありません。

この制約に対処するため、研究者のチームは、特にゼロから学習が必要なシナリオで、言語を強化学習ロボットエージェントの中核に据えるフレームワークを提案しました。彼らの研究の主な貢献は、Foundation Modelsに保持された知識を活用することにより、特に4つのRL設定でいくつかの基本的な問題に効果的に対処できることを示すことです。

  1. 報酬が少ない設定での効率的な探索:報酬が少ない設定を探索することはRLエージェントにとって困難であり、最適な振る舞いを学習することが頻繁に難しいです。提案されたアプローチは、Foundation Modelsに保持された知識を活用することで、これらのコンテキストでの探索と学習をより効果的に行うことができます。
  1. 過去に収集したデータの再利用による連続学習:このフレームワークにより、RLエージェントは新しいタスクに取り組む際に毎回ゼロから始めるのではなく、以前に収集したデータを基に学習を進めることができ、新しいタスクの連続学習を支援します。
  1. 新しいタスクのための学習済みの能力のスケジューリング:このフレームワークは、学習済みの能力のスケジューリングをサポートし、エージェントが現在の知識を効率的に活用して新しいタスクに対処できるようにします。
  1. エキスパートエージェントの観察からの学習:Foundation Modelsを使用してエキスパートエージェントの観察から学習することで、学習プロセスをより効率的かつ迅速に行うことができます。

研究チームは、主な貢献を以下のようにまとめています:

  1. このフレームワークは、言語モデルとビジョン言語モデルを基礎的な推論ツールとして使用することで、RLエージェントがテキスト情報に基づいてより効果的に推論と判断を行う能力を向上させます。この方法により、エージェントの困難なタスクと状況への理解力が向上します。
  1. 提案されたフレームワークは、過去には異なる特別に作成されたアルゴリズムが必要だった基本的なRLの問題を効率的に解決する効果を示します。
  1. この新しいフレームワークは、報酬が少ないロボット操作の設定で従来のベースライン技術を上回る性能を発揮します。
  2. このフレームワークは、以前に教えられたスキルを効率的に使用してタスクを完了することができます。学習済みの情報を新しい状況に転送する能力により、RLエージェントの一般化と適応性が向上します。
  1. このフレームワークは、人間の専門家の映像を模倣することによってRLエージェントが観察から正確に学習できることを示します。

まとめると、この研究は、言語モデルとビジョン言語モデルが強化学習エージェントの推論の中核として機能する能力を持っていることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

理論から実践へ:k最近傍法分類器の構築

k-最近傍法分類器は、新しいデータポイントを、k個の最も近い隣人の中で最も一般的なクラスに割り当てる機械学習アルゴリズム...

機械学習

「このAI論文は、初めて軽量な基礎モデルを宇宙空間に展開します」

宇宙技術は日々進化しています。異なる研究グループからは、宇宙研究に影響を与える機械学習と人工知能モデルを宇宙で構築す...

人工知能

人工知能に投資するのですか? 考慮すべきポイントはこれです

「AIの取り組みに投資するためのすべての知識」

データサイエンス

AIは、人間の確証バイアスを克服できるか?

『思考、速思速行』という本でノーベル賞受賞者ダニエル・カーネマンは、私たちは皆、人間の脳が本来すべきことからは遠く離...

機械学習

「最も強力な機械学習モデルの解説(トランスフォーマー、CNN、RNN、GANなど)」

「2023年には、Transformers、CNN、RNN、GANなどの機械学習モデルがAIのイノベーションをリードしていますこのVoAGIの記事で...

AIニュース

「Microsoftが'思考のアルゴリズム'を通じてAIに人間のような推論を注入する」

「新しい技術は、人間の認知力とアルゴリズムの論理力を組み合わせた手法です」