大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています

ハーバード大学の研究では、大規模な生体分子動力学のためのディープラーニングで、事前に学習されたアレグロモデルをスケーリングしています

計算生物学、化学、材料工学は、原子スケールでの物質の時間進化を予測する能力に依存しています。量子力学は、原子や電子の振動、移動、および結合解離を支配しますが、観測可能な物理的および化学的プロセスを支配する現象は、通常ははるかに大きな長さおよび長い時間スケールで発生します。量子相互作用を捕捉するために、高度に並列化可能なアーキテクチャとエクサスケールプロセッサへのアクセスが必要です。現在のコンピュータのアプローチでは、現実的な物理的および化学的システムの構造的複雑さを調査することはできず、その観測可能な進化の期間は原子論的シミュレーションにとっては長すぎます。

過去20年間で、MLIP(機械学習相互作用ポテンシャル)に関する多くの研究が行われてきました。高精度な参照データから学習されたエネルギーと力を使用して、MLIPは原子数に比例してスケールします。初期の試みでは、ガウス過程または単純なニューラルネットワークを、手動で作成された記述子と組み合わせて使用しました。初期のMLIPは予測精度が低かったため、トレーニングに存在しないデータ構造に一般化することができず、他の場所で使用できない壊れやすいシミュレーションにつながりました。

ハーバード大学の研究チームによる新しい研究では、Allegroを使用して、最大で4400万原子を持つ生体分子系をSOTAの精度でモデル化することができることが示されています。チームは、DHFRの原子数23000からFactor IXの原子数91000、セルロースの原子数400000、HIVカプシドの原子数44000000、およびその他の系の原子数100000を含む系に対して、大規模な事前学習済みのAllegroモデルを使用しました。800万の重みを持つ事前学習済みのAllegroモデルは、優れたSPICEデータセットでのハイブリッド機能の精度で100万の構造をトレーニングして26 meV/Aの強制エラーを達成しました。このデータスケールで無機材料と有機分子の完全なセットを学習する可能性により、以前想像もできなかった広範な材料系の高速エクサスケールシミュレーションが可能になりました。これは非常に大きくて強力なモデルであり、800万の重みを持っています。

トレーニングセットの自動構築のためのアクティブラーニングを行うために、研究者たちは、深層同変モデルの力とエネルギーの予測の不確実性を効率的に定量化することが可能であることを示しました。同変モデルは正確であるため、精度のボトルネックは現在はMLIPのトレーニングに必要な量子電子構造計算にあります。Gaussian混合モデルはAllegroで簡単に適応できるため、アンサンブルではなく単一のモデルで大規模な不確実性を考慮したシミュレーションを実行することが可能になります。

Allegroは、伝統的なメッセージパッシングおよびトランスフォーマベースの設計を超える唯一のスケーラブルなアプローチです。さまざまな大規模なシステムで、100ステップ/秒以上の最高速度を示し、結果は1億原子以上にスケールアップします。HIVカプシドの4400万原子のような大規模なスケールでも、一般にはかなり明白な欠陥があるにもかかわらず、シミュレーションはボックスから数ナノ秒以上安定しています。チームはプロダクション全体でほとんど問題を経験しませんでした。

巨大な生体分子系の動態とタンパク質と薬物との原子レベルの相互作用をよりよく理解するために、チームは自らの研究が生化学と薬物発見の新たな道を開拓することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「言語モデルは放射線科を革新することができるのか?Radiology-Llama2に会ってみてください:指示調整というプロセスを通じて特化した大規模な言語モデル」

トランスフォーマーをベースとした大規模言語モデル(LLM)は、ChatGPTやGPT-4などを含むトランスフォーマーに基づく自然言語...

AIニュース

神経形態チップの訓練の突破口的な方法

研究チームは、外部ソフトウェアによるトレーニングを必要としないニューロモーフィックチップを開発しました

機械学習

5つのステップでScikit-learnを始める

このチュートリアルでは、Scikit-learnを使用した機械学習の包括的なハンズオンの手順を提供します読者は、データの前処理、...

機械学習

このAI論文は、「テキストに基づくローカライズされた3Dオブジェクトの編集のための事前学習済みNeRFと編集可能なNeRFを組み合わせたBlending-NeRF」を提案しています

3Dイメージ合成および関連する技術は、絵画、製品デザイン、アニメーションなど、様々な産業に大きな影響を与えています。Neu...

AIニュース

「エンジニアは失敗を見つける使命に就いています」

マサチューセッツ工科大学の研究者たちによって開発されたアルゴリズムは、現実世界への展開前にシミュレーションされた自律...

データサイエンス

「データサイエンスの面接を改善する簡単な方法」

この投稿では、未経験のデータサイエンスの採用マネージャーとしての過ちについての物語と、それが私の技術面接の方法に与え...