スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します

「スタンフォード、NVIDIA、およびUT Austinの研究者が提案する新しい人工知能アルゴリズム「クロスエピソードカリキュラム(CEC)」で、トランスフォーマーエージェントの学習効率と汎化能力が向上!」

シーケンシャルな意思決定の問題は、ファウンドメーションモデルの導入によるパラダイムの転換により、大きな変革を遂げています。トランスフォーマーモデルなどのこれらのモデルは、計画、制御、および事前学習された視覚表現など、さまざまな領域を完全に変えてきました。しかし、これらのデータハングリーなアルゴリズムをデータが少ないロボティクスのような領域に適用することは非常に困難です。データの量が制限された状況で、ソースや品質に関係なく、より効果的な学習をサポートするために、アクセス可能なデータを最大限に活用することが可能かどうかという疑問が生じます。

これらの課題に対応するために、研究者グループが最近開発した独特のアルゴリズム、Cross-Episodic Curriculum(CEC)があります。CECテクニックは、カリキュラムに異なる経験が異なる分布で配列される際の方法を活用します。CECの目標は、トランスフォーマーモデルの学習と汎化効率を向上させることです。CECの基本的なコンセプトは、トランスフォーマーモデルにクロスエピソードの経験を組み込んでカリキュラムを作成することです。このカリキュラムでは、オンライン学習トライアルとミックスクオリティのデモが段階的に配置され、学習曲線とエピソード間でのスキル向上が捉えられます。CECは、トランスフォーマーモデルの強力なパターン認識能力を活用して、クロスエピソードの注意機構を作り出します。

チームは、CECの有効性を示すために2つのシナリオを提供しています。

  1. DeepMind Labのディスクリートコントロールを伴うマルチタスク強化学習:このシナリオでは、CECを使用してディスクリートコントロールのマルチタスク強化学習の課題を解決します。CECによって開発されたカリキュラムは、個々の状況と徐々に複雑になる文脈の学習経路を捉えます。これにより、エージェントは学習と適応を小さなステップで進めることで、徐々により難しいタスクをマスターすることができます。
  1. RoboMimic、連続制御のためのミックスクオリティデータを使用した模倣学習 – RoboMimicに関連する第2のシナリオでは、連続制御とミックスクオリティデータを使用した模倣学習が行われます。CECが作成したカリキュラムの目標は、デモンストレーターのレベルの向上を記録することです。

CECによって生成されたポリシーは、どちらのシナリオでも優れたパフォーマンスと強力な一般化能力を示しており、これにより、CECはトランスフォーマーエージェントの適応性と学習効率をさまざまな文脈で向上させるための有効な戦略であることが示唆されています。Cross-Episodic Curriculum法には、次の2つの重要なステップが含まれています。

  1. カリキュラムデータの準備:カリキュラムデータの準備はCECプロセスの初めのステップです。特定の順序と構造でイベントを配置することを意味します。これらのイベントは、カリキュラムのパターンを明確に示すために特定の順序で配置されます。これらのパターンは、単一環境でのポリシー改善、徐々に困難な環境での学習の進展、デモンストレーターの専門知識の向上など、さまざまな形で表現されます。
  1. クロスエピソード注意モデルの訓練:これはモデルの訓練の2番目の重要な段階です。この訓練段階では、モデルはアクションを予測するために訓練されます。この方法の特徴的な点は、モデルが現在のエピソードに加えて以前のエピソードを参照することができることです。これにより、カリキュラムデータで注目された改善とポリシーの調整を内面化することができます。過去の経験を利用するため、学習はより効率的に行われることがあります。

通常、因果トランスフォーマーモデルを示すために、これらの段階を視覚的に示すために色付きの三角形が使用されます。これらのモデルはCECメソッドにとって重要であり、学習プロセスにクロスエピソードのイベントを取り入れるのを容易にします。推奨されたアクションは、「a ^」で示され、意思決定に重要な役割を果たします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIベースのサイバーセキュリティがビジネスの強靭性を高める方法」

世界の50億人以上のインターネットユーザーとおよそ540億個のデバイスが、IDCによると1秒あたり3.4ペタバイトのデータを生成...

機械学習

このAI論文では、「ステーブルシグネチャ:画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています

生成モデリングと自然言語処理の最近の進歩により、DALL’E 2やStable Diffusionなどのツールを使用して、写真のような...

AI研究

百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げて...

機械学習

このAI論文では、Complexity-Impacted Reasoning Score(CIRS)を紹介していますこれは、大規模な言語モデルの推論能力を向上させるためのコードの複雑さの役割を評価するものです

大規模言語モデル(LLM)は、具現化された人工知能の問題解決における汎用的なアプローチとなっています。効率的な制御のため...

機械学習

Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出...

データサイエンス

A12研究者は、人工衛星画像から生成された世界の地理空間データを探索するための新しいAIプラットフォーム「Satlas」を紹介しました

タイムリーかつ正確な地理空間データが多くのグローバルな課題に対処するために不可欠である世界において、包括的かつ最新の...