スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します

「スタンフォード、NVIDIA、およびUT Austinの研究者が提案する新しい人工知能アルゴリズム「クロスエピソードカリキュラム(CEC)」で、トランスフォーマーエージェントの学習効率と汎化能力が向上!」

シーケンシャルな意思決定の問題は、ファウンドメーションモデルの導入によるパラダイムの転換により、大きな変革を遂げています。トランスフォーマーモデルなどのこれらのモデルは、計画、制御、および事前学習された視覚表現など、さまざまな領域を完全に変えてきました。しかし、これらのデータハングリーなアルゴリズムをデータが少ないロボティクスのような領域に適用することは非常に困難です。データの量が制限された状況で、ソースや品質に関係なく、より効果的な学習をサポートするために、アクセス可能なデータを最大限に活用することが可能かどうかという疑問が生じます。

これらの課題に対応するために、研究者グループが最近開発した独特のアルゴリズム、Cross-Episodic Curriculum(CEC)があります。CECテクニックは、カリキュラムに異なる経験が異なる分布で配列される際の方法を活用します。CECの目標は、トランスフォーマーモデルの学習と汎化効率を向上させることです。CECの基本的なコンセプトは、トランスフォーマーモデルにクロスエピソードの経験を組み込んでカリキュラムを作成することです。このカリキュラムでは、オンライン学習トライアルとミックスクオリティのデモが段階的に配置され、学習曲線とエピソード間でのスキル向上が捉えられます。CECは、トランスフォーマーモデルの強力なパターン認識能力を活用して、クロスエピソードの注意機構を作り出します。

チームは、CECの有効性を示すために2つのシナリオを提供しています。

  1. DeepMind Labのディスクリートコントロールを伴うマルチタスク強化学習:このシナリオでは、CECを使用してディスクリートコントロールのマルチタスク強化学習の課題を解決します。CECによって開発されたカリキュラムは、個々の状況と徐々に複雑になる文脈の学習経路を捉えます。これにより、エージェントは学習と適応を小さなステップで進めることで、徐々により難しいタスクをマスターすることができます。
  1. RoboMimic、連続制御のためのミックスクオリティデータを使用した模倣学習 – RoboMimicに関連する第2のシナリオでは、連続制御とミックスクオリティデータを使用した模倣学習が行われます。CECが作成したカリキュラムの目標は、デモンストレーターのレベルの向上を記録することです。

CECによって生成されたポリシーは、どちらのシナリオでも優れたパフォーマンスと強力な一般化能力を示しており、これにより、CECはトランスフォーマーエージェントの適応性と学習効率をさまざまな文脈で向上させるための有効な戦略であることが示唆されています。Cross-Episodic Curriculum法には、次の2つの重要なステップが含まれています。

  1. カリキュラムデータの準備:カリキュラムデータの準備はCECプロセスの初めのステップです。特定の順序と構造でイベントを配置することを意味します。これらのイベントは、カリキュラムのパターンを明確に示すために特定の順序で配置されます。これらのパターンは、単一環境でのポリシー改善、徐々に困難な環境での学習の進展、デモンストレーターの専門知識の向上など、さまざまな形で表現されます。
  1. クロスエピソード注意モデルの訓練:これはモデルの訓練の2番目の重要な段階です。この訓練段階では、モデルはアクションを予測するために訓練されます。この方法の特徴的な点は、モデルが現在のエピソードに加えて以前のエピソードを参照することができることです。これにより、カリキュラムデータで注目された改善とポリシーの調整を内面化することができます。過去の経験を利用するため、学習はより効率的に行われることがあります。

通常、因果トランスフォーマーモデルを示すために、これらの段階を視覚的に示すために色付きの三角形が使用されます。これらのモデルはCECメソッドにとって重要であり、学習プロセスにクロスエピソードのイベントを取り入れるのを容易にします。推奨されたアクションは、「a ^」で示され、意思決定に重要な役割を果たします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...

AI研究

マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffu...

機械学習

「Inside LlaVA GPT-4Vのオープンソースの最初の代替案」

数週間前、OpenAIはGPT-4で新しい画像および音声処理の機能を公開しました基本的に、AIラボはGPT-4 Vision(GPT-4V)という新...

AI研究

ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺...

機械学習

LangFlow | LLMを使用してアプリケーションを開発するためのLangChainのUI

イントロダクション 大規模言語モデルは世界中で大きな話題となっています。ChatGPT、GPT3、Bardなどの大規模言語モデルが登...

AIニュース

バードが強化された機能を発表:Gmail、Drive、および他のGoogle Appsとの統合

ジェネラティブAIとの協力を革新するために、Bardはこれまでにない最先端のモデルを導入しました。この革新はゲームチェンジ...