大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています

ハーバード大学の研究では、大規模な生体分子動力学のためのディープラーニングで、事前に学習されたアレグロモデルをスケーリングしています

計算生物学、化学、材料工学は、原子スケールでの物質の時間進化を予測する能力に依存しています。量子力学は、原子や電子の振動、移動、および結合解離を支配しますが、観測可能な物理的および化学的プロセスを支配する現象は、通常ははるかに大きな長さおよび長い時間スケールで発生します。量子相互作用を捕捉するために、高度に並列化可能なアーキテクチャとエクサスケールプロセッサへのアクセスが必要です。現在のコンピュータのアプローチでは、現実的な物理的および化学的システムの構造的複雑さを調査することはできず、その観測可能な進化の期間は原子論的シミュレーションにとっては長すぎます。

過去20年間で、MLIP(機械学習相互作用ポテンシャル)に関する多くの研究が行われてきました。高精度な参照データから学習されたエネルギーと力を使用して、MLIPは原子数に比例してスケールします。初期の試みでは、ガウス過程または単純なニューラルネットワークを、手動で作成された記述子と組み合わせて使用しました。初期のMLIPは予測精度が低かったため、トレーニングに存在しないデータ構造に一般化することができず、他の場所で使用できない壊れやすいシミュレーションにつながりました。

ハーバード大学の研究チームによる新しい研究では、Allegroを使用して、最大で4400万原子を持つ生体分子系をSOTAの精度でモデル化することができることが示されています。チームは、DHFRの原子数23000からFactor IXの原子数91000、セルロースの原子数400000、HIVカプシドの原子数44000000、およびその他の系の原子数100000を含む系に対して、大規模な事前学習済みのAllegroモデルを使用しました。800万の重みを持つ事前学習済みのAllegroモデルは、優れたSPICEデータセットでのハイブリッド機能の精度で100万の構造をトレーニングして26 meV/Aの強制エラーを達成しました。このデータスケールで無機材料と有機分子の完全なセットを学習する可能性により、以前想像もできなかった広範な材料系の高速エクサスケールシミュレーションが可能になりました。これは非常に大きくて強力なモデルであり、800万の重みを持っています。

トレーニングセットの自動構築のためのアクティブラーニングを行うために、研究者たちは、深層同変モデルの力とエネルギーの予測の不確実性を効率的に定量化することが可能であることを示しました。同変モデルは正確であるため、精度のボトルネックは現在はMLIPのトレーニングに必要な量子電子構造計算にあります。Gaussian混合モデルはAllegroで簡単に適応できるため、アンサンブルではなく単一のモデルで大規模な不確実性を考慮したシミュレーションを実行することが可能になります。

Allegroは、伝統的なメッセージパッシングおよびトランスフォーマベースの設計を超える唯一のスケーラブルなアプローチです。さまざまな大規模なシステムで、100ステップ/秒以上の最高速度を示し、結果は1億原子以上にスケールアップします。HIVカプシドの4400万原子のような大規模なスケールでも、一般にはかなり明白な欠陥があるにもかかわらず、シミュレーションはボックスから数ナノ秒以上安定しています。チームはプロダクション全体でほとんど問題を経験しませんでした。

巨大な生体分子系の動態とタンパク質と薬物との原子レベルの相互作用をよりよく理解するために、チームは自らの研究が生化学と薬物発見の新たな道を開拓することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『Talent.com』において

この投稿は、アナトリー・ホメンコ(機械学習エンジニア)とアブデノール・ベズーウ(テクノロジー担当最高技術責任者)によ...

機械学習

「NVIDIAのグレース・ホッパー・スーパーチップがMLPerfの推論ベンチマークを席巻する」

MLPerf業界ベンチマークに初登場したNVIDIA GH200 Grace Hopperスーパーチップは、すべてのデータセンターインファレンステス...

機械学習

「ユナイテッド航空がコスト効率の高い光学文字認識アクティブラーニングパイプラインを構築した方法」

この記事では、ユナイテッド航空がAmazon Machine Learning Solutions Labとの協力で、AWS上にアクティブラーニングフレーム...

データサイエンス

なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、2006年にクライブ・ハンビーによって作られ、それ以来広く反復されてきましたしか...

AI研究

北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク

最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenな...

AI研究

大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています

計算生物学、化学、材料工学は、原子スケールでの物質の時間進化を予測する能力に依存しています。量子力学は、原子や電子の...