このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

「Qualcomm AI ResearchのAIペーパー:進化したモデルベースの強化学習と効率的な計画のための画期的な不変拡散器、EDGI、が発表されました」

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。

十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。

この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。

研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ニューラル輝度場の不確実性をどのように測定できますか?BayesRaysを紹介します:NeRFの革命的な事後フレームワーク

3Dモデルの作成は、2D画像よりも没入感とリアルな表現を提供します。これにより、視点を変えてシーンを探索し、対話すること...

機械学習

機械学習(ML)の実験トラッキングと管理のためのトップツール(2023年)

機械学習プロジェクトを行う際に、単一のモデルトレーニング実行から良い結果を得ることは一つのことです。機械学習の試行を...

機械学習

「WebAgentに会いましょう:DeepMindの新しいLLM、ウェブサイト上での指示に従ってタスクを完了する」

大規模言語モデル(LLM)とウェブサイトの統合は、新たな波のLLMを活用したアプリケーションを可能にする領域の一つですLLMは...

機械学習

「Xenovaのテキスト読み上げクライアントツール:自然な音声合成を実現する頑強で柔軟なAIプラットフォーム」

テキスト読み上げ(TTS)技術の発展により、Xenovaが提供するテキスト読み上げクライアントなど、印象的な製品が開発されまし...

AI研究

MITの研究者たちは、SmartEMというAI技術を開発しましたこの技術は、リアルタイムの機械学習を画像処理にシームレスに統合することで、電子顕微鏡を次のレベルに進化させます

動物の脳の複雑なネットワークを理解することは、特にアルツハイマーのような疾患を研究する際に、科学者にとって大きな課題...

データサイエンス

中国の最新のAI研究により、「OMMO」と呼ばれる大規模な屋外マルチモーダルデータセットと新しい視点合成および暗黙的なシーン再構築のためのベンチマークが紹介されました

最近の暗黙的な脳表現の進歩により、写真のような新しい視点の合成と高品質な表面再構築が可能になりました。残念ながら、現...