このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器
「Qualcomm AI ResearchのAIペーパー:進化したモデルベースの強化学習と効率的な計画のための画期的な不変拡散器、EDGI、が発表されました」
あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。
十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。
この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。
- 「Google DeepMind ResearchはSODAを紹介しました:表現学習のために設計された自己教師付き拡散モデル」
- 北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク
- 「UCバークレーの研究者たちは、スターリング-7Bを発表しました:AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル(LLM)です(RLAIF)」
研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています
- テキサス大学の研究者たちは、機械学習を用いてインプラントベースの再建合併症を予測する方法を紹介します
- 「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」
- コーネル大学の研究者たちは、言語モデルのプロンプトについての洞察を明らかにしました:次のトークンの確率が隠れたテキストを明らかにする方法についての深い探求
- 「研究者がドメイン固有の科学チャットボットを開発」
- ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した
- 「マイクロソフトの研究者が提案するMAIRA-1:胸部X線写真(CXR)から放射線報告書を生成するための放射線学専用マルチモーダルモデル」