このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

「Qualcomm AI ResearchのAIペーパー:進化したモデルベースの強化学習と効率的な計画のための画期的な不変拡散器、EDGI、が発表されました」

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。

十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。

この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。

研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Pandasを使用したSpark上のPythonの並列化 並行性のオプション」

私の前の役職では、数千のディスクにわたるマネージドサービスのお客様の将来のディスクストレージ使用量を予測するための内...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...

AIニュース

「生成AIとAmazon Kendraを使用して、エンタープライズスケールでキャプションの作成と画像の検索を自動化する」

Amazon Kendraは、機械学習(ML)によって駆動されるインテリジェントな検索サービスですAmazon Kendraは、ウェブサイトやア...

データサイエンス

Rendered.aiは、合成データの生成にNVIDIA Omniverseを統合します

Rendered.aiは、プラットフォームとして提供される合成データ生成(SDG)により、開発者、データサイエンティスト、その他の...

AIニュース

世界初のAI搭載アーム:知っておくべきすべて

人工知能がバイオニックアームを制御する世界を想像したことがありますか? スーパーヒーローの映画から出てきたコンセプトの...

機械学習

「生成的なAIアプリケーションと3D仮想世界の構築方法」

成長し成功するためには、組織は特に生成AIや3D仮想世界のような急速に進化する技術領域において、技術スキルの開発に継続的...