このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

「Qualcomm AI ResearchのAIペーパー:進化したモデルベースの強化学習と効率的な計画のための画期的な不変拡散器、EDGI、が発表されました」

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。

十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。

この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。

研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「3年以内に労働力の40%がAIの影響を受ける予測」

「ジェネラティブAIブームによる次の3年間に何を期待すべきか?」

AIニュース

「ブラックボックスを開く」

研究者は、説明可能な設計空間探索を通じて、科学者やプロセッサ設計者が深層学習アクセラレータの設計の根本的な理論を理解...

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...

機械学習

「AWS reInvent 2023での生成的AIとMLのガイド」

はい、AWS reInventの季節がやってきましたいつものように、場所はラスベガスです!カレンダーに印をつけ、ホテルを予約し、...