スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します
「スタンフォード、NVIDIA、およびUT Austinの研究者が提案する新しい人工知能アルゴリズム「クロスエピソードカリキュラム(CEC)」で、トランスフォーマーエージェントの学習効率と汎化能力が向上!」
シーケンシャルな意思決定の問題は、ファウンドメーションモデルの導入によるパラダイムの転換により、大きな変革を遂げています。トランスフォーマーモデルなどのこれらのモデルは、計画、制御、および事前学習された視覚表現など、さまざまな領域を完全に変えてきました。しかし、これらのデータハングリーなアルゴリズムをデータが少ないロボティクスのような領域に適用することは非常に困難です。データの量が制限された状況で、ソースや品質に関係なく、より効果的な学習をサポートするために、アクセス可能なデータを最大限に活用することが可能かどうかという疑問が生じます。
これらの課題に対応するために、研究者グループが最近開発した独特のアルゴリズム、Cross-Episodic Curriculum(CEC)があります。CECテクニックは、カリキュラムに異なる経験が異なる分布で配列される際の方法を活用します。CECの目標は、トランスフォーマーモデルの学習と汎化効率を向上させることです。CECの基本的なコンセプトは、トランスフォーマーモデルにクロスエピソードの経験を組み込んでカリキュラムを作成することです。このカリキュラムでは、オンライン学習トライアルとミックスクオリティのデモが段階的に配置され、学習曲線とエピソード間でのスキル向上が捉えられます。CECは、トランスフォーマーモデルの強力なパターン認識能力を活用して、クロスエピソードの注意機構を作り出します。
チームは、CECの有効性を示すために2つのシナリオを提供しています。
- シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです
- Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行
- このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます
- DeepMind Labのディスクリートコントロールを伴うマルチタスク強化学習:このシナリオでは、CECを使用してディスクリートコントロールのマルチタスク強化学習の課題を解決します。CECによって開発されたカリキュラムは、個々の状況と徐々に複雑になる文脈の学習経路を捉えます。これにより、エージェントは学習と適応を小さなステップで進めることで、徐々により難しいタスクをマスターすることができます。
- RoboMimic、連続制御のためのミックスクオリティデータを使用した模倣学習 – RoboMimicに関連する第2のシナリオでは、連続制御とミックスクオリティデータを使用した模倣学習が行われます。CECが作成したカリキュラムの目標は、デモンストレーターのレベルの向上を記録することです。
CECによって生成されたポリシーは、どちらのシナリオでも優れたパフォーマンスと強力な一般化能力を示しており、これにより、CECはトランスフォーマーエージェントの適応性と学習効率をさまざまな文脈で向上させるための有効な戦略であることが示唆されています。Cross-Episodic Curriculum法には、次の2つの重要なステップが含まれています。
- カリキュラムデータの準備:カリキュラムデータの準備はCECプロセスの初めのステップです。特定の順序と構造でイベントを配置することを意味します。これらのイベントは、カリキュラムのパターンを明確に示すために特定の順序で配置されます。これらのパターンは、単一環境でのポリシー改善、徐々に困難な環境での学習の進展、デモンストレーターの専門知識の向上など、さまざまな形で表現されます。
- クロスエピソード注意モデルの訓練:これはモデルの訓練の2番目の重要な段階です。この訓練段階では、モデルはアクションを予測するために訓練されます。この方法の特徴的な点は、モデルが現在のエピソードに加えて以前のエピソードを参照することができることです。これにより、カリキュラムデータで注目された改善とポリシーの調整を内面化することができます。過去の経験を利用するため、学習はより効率的に行われることがあります。
通常、因果トランスフォーマーモデルを示すために、これらの段階を視覚的に示すために色付きの三角形が使用されます。これらのモデルはCECメソッドにとって重要であり、学習プロセスにクロスエピソードのイベントを取り入れるのを容易にします。推奨されたアクションは、「a ^」で示され、意思決定に重要な役割を果たします。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています
- NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained
- SalesForce AI研究所によって開発されたProGen:人工知能を使用したタンパク質エンジニアリングの飛躍的進歩
- プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します
- スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる
- CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います
- 医療画像は黒い肌に失敗する研究者がそれを修正した