大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています

ハーバード大学の研究では、大規模な生体分子動力学のためのディープラーニングで、事前に学習されたアレグロモデルをスケーリングしています

計算生物学、化学、材料工学は、原子スケールでの物質の時間進化を予測する能力に依存しています。量子力学は、原子や電子の振動、移動、および結合解離を支配しますが、観測可能な物理的および化学的プロセスを支配する現象は、通常ははるかに大きな長さおよび長い時間スケールで発生します。量子相互作用を捕捉するために、高度に並列化可能なアーキテクチャとエクサスケールプロセッサへのアクセスが必要です。現在のコンピュータのアプローチでは、現実的な物理的および化学的システムの構造的複雑さを調査することはできず、その観測可能な進化の期間は原子論的シミュレーションにとっては長すぎます。

過去20年間で、MLIP(機械学習相互作用ポテンシャル)に関する多くの研究が行われてきました。高精度な参照データから学習されたエネルギーと力を使用して、MLIPは原子数に比例してスケールします。初期の試みでは、ガウス過程または単純なニューラルネットワークを、手動で作成された記述子と組み合わせて使用しました。初期のMLIPは予測精度が低かったため、トレーニングに存在しないデータ構造に一般化することができず、他の場所で使用できない壊れやすいシミュレーションにつながりました。

ハーバード大学の研究チームによる新しい研究では、Allegroを使用して、最大で4400万原子を持つ生体分子系をSOTAの精度でモデル化することができることが示されています。チームは、DHFRの原子数23000からFactor IXの原子数91000、セルロースの原子数400000、HIVカプシドの原子数44000000、およびその他の系の原子数100000を含む系に対して、大規模な事前学習済みのAllegroモデルを使用しました。800万の重みを持つ事前学習済みのAllegroモデルは、優れたSPICEデータセットでのハイブリッド機能の精度で100万の構造をトレーニングして26 meV/Aの強制エラーを達成しました。このデータスケールで無機材料と有機分子の完全なセットを学習する可能性により、以前想像もできなかった広範な材料系の高速エクサスケールシミュレーションが可能になりました。これは非常に大きくて強力なモデルであり、800万の重みを持っています。

トレーニングセットの自動構築のためのアクティブラーニングを行うために、研究者たちは、深層同変モデルの力とエネルギーの予測の不確実性を効率的に定量化することが可能であることを示しました。同変モデルは正確であるため、精度のボトルネックは現在はMLIPのトレーニングに必要な量子電子構造計算にあります。Gaussian混合モデルはAllegroで簡単に適応できるため、アンサンブルではなく単一のモデルで大規模な不確実性を考慮したシミュレーションを実行することが可能になります。

Allegroは、伝統的なメッセージパッシングおよびトランスフォーマベースの設計を超える唯一のスケーラブルなアプローチです。さまざまな大規模なシステムで、100ステップ/秒以上の最高速度を示し、結果は1億原子以上にスケールアップします。HIVカプシドの4400万原子のような大規模なスケールでも、一般にはかなり明白な欠陥があるにもかかわらず、シミュレーションはボックスから数ナノ秒以上安定しています。チームはプロダクション全体でほとんど問題を経験しませんでした。

巨大な生体分子系の動態とタンパク質と薬物との原子レベルの相互作用をよりよく理解するために、チームは自らの研究が生化学と薬物発見の新たな道を開拓することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

新しいモデルが、薬剤探索を加速する方法を提供します

言語モデルをタンパク質-薬物相互作用に適用することで、研究者は大量の潜在的な薬剤化合物を迅速にスクリーニングすることが...

AI研究

「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。...

データサイエンス

「Skill-it」とは、言語モデルの理解とトレーニングのためのデータ駆動型スキルフレームワークです

大規模言語モデル(LM)は、ソースコードの作成、オリジナルの芸術作品の作成、人との対話など、非常に能力が高いです。モデ...

AIニュース

「Googleは、ヘルスケアとライフサイエンスの機能を備えたVertex AI検索をアップデートしました」

ヘルスケアの領域において、人工知能(AI)の登場は効率と精度の新時代を予感させる光明塔となっています。Google Cloudは、...

AI研究

Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたは...

データサイエンス

AIが脳の液体の流れを示すのに役立つ

科学者たちのチームが、人間の脳の脳血管周りの流体の流れを定量化するために、人工知能に基づく速度測定を作成しました