スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します

「スタンフォード、NVIDIA、およびUT Austinの研究者が提案する新しい人工知能アルゴリズム「クロスエピソードカリキュラム(CEC)」で、トランスフォーマーエージェントの学習効率と汎化能力が向上!」

シーケンシャルな意思決定の問題は、ファウンドメーションモデルの導入によるパラダイムの転換により、大きな変革を遂げています。トランスフォーマーモデルなどのこれらのモデルは、計画、制御、および事前学習された視覚表現など、さまざまな領域を完全に変えてきました。しかし、これらのデータハングリーなアルゴリズムをデータが少ないロボティクスのような領域に適用することは非常に困難です。データの量が制限された状況で、ソースや品質に関係なく、より効果的な学習をサポートするために、アクセス可能なデータを最大限に活用することが可能かどうかという疑問が生じます。

これらの課題に対応するために、研究者グループが最近開発した独特のアルゴリズム、Cross-Episodic Curriculum(CEC)があります。CECテクニックは、カリキュラムに異なる経験が異なる分布で配列される際の方法を活用します。CECの目標は、トランスフォーマーモデルの学習と汎化効率を向上させることです。CECの基本的なコンセプトは、トランスフォーマーモデルにクロスエピソードの経験を組み込んでカリキュラムを作成することです。このカリキュラムでは、オンライン学習トライアルとミックスクオリティのデモが段階的に配置され、学習曲線とエピソード間でのスキル向上が捉えられます。CECは、トランスフォーマーモデルの強力なパターン認識能力を活用して、クロスエピソードの注意機構を作り出します。

チームは、CECの有効性を示すために2つのシナリオを提供しています。

  1. DeepMind Labのディスクリートコントロールを伴うマルチタスク強化学習:このシナリオでは、CECを使用してディスクリートコントロールのマルチタスク強化学習の課題を解決します。CECによって開発されたカリキュラムは、個々の状況と徐々に複雑になる文脈の学習経路を捉えます。これにより、エージェントは学習と適応を小さなステップで進めることで、徐々により難しいタスクをマスターすることができます。
  1. RoboMimic、連続制御のためのミックスクオリティデータを使用した模倣学習 – RoboMimicに関連する第2のシナリオでは、連続制御とミックスクオリティデータを使用した模倣学習が行われます。CECが作成したカリキュラムの目標は、デモンストレーターのレベルの向上を記録することです。

CECによって生成されたポリシーは、どちらのシナリオでも優れたパフォーマンスと強力な一般化能力を示しており、これにより、CECはトランスフォーマーエージェントの適応性と学習効率をさまざまな文脈で向上させるための有効な戦略であることが示唆されています。Cross-Episodic Curriculum法には、次の2つの重要なステップが含まれています。

  1. カリキュラムデータの準備:カリキュラムデータの準備はCECプロセスの初めのステップです。特定の順序と構造でイベントを配置することを意味します。これらのイベントは、カリキュラムのパターンを明確に示すために特定の順序で配置されます。これらのパターンは、単一環境でのポリシー改善、徐々に困難な環境での学習の進展、デモンストレーターの専門知識の向上など、さまざまな形で表現されます。
  1. クロスエピソード注意モデルの訓練:これはモデルの訓練の2番目の重要な段階です。この訓練段階では、モデルはアクションを予測するために訓練されます。この方法の特徴的な点は、モデルが現在のエピソードに加えて以前のエピソードを参照することができることです。これにより、カリキュラムデータで注目された改善とポリシーの調整を内面化することができます。過去の経験を利用するため、学習はより効率的に行われることがあります。

通常、因果トランスフォーマーモデルを示すために、これらの段階を視覚的に示すために色付きの三角形が使用されます。これらのモデルはCECメソッドにとって重要であり、学習プロセスにクロスエピソードのイベントを取り入れるのを容易にします。推奨されたアクションは、「a ^」で示され、意思決定に重要な役割を果たします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

データサイエンス

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータ...

AIニュース

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエ...

機械学習

AI カリキュラムの日が今こそ必要な時に会う

MIT RAISEの無料K-12プログラムへのグローバル参加者が、2年目にして2倍以上に増加しました

AIニュース

「NSFが1,090万ドルの資金を安全なAI技術の開発に投資」

国立科学財団は、「安全な学習可能システム(Safe Learning-Enabled Systems)プログラム」を通じて、ユーザーが安心して利用...