予めトレーニングされた基礎モデルは、分子機械学習の未来ですか?前例のないデータセットとGraphium機械学習ライブラリを紹介します
基礎モデルの予めトレーニングは、分子機械学習の未来を担いますか?前例のないデータセットとGraphium機械学習ライブラリをご紹介します
最近の薬剤探索における機械学習の最新の成果は、主にグラフおよび幾何学的ディープラーニングモデルに帰因されています。これらの技術は、原子間相互作用のモデリング、分子表現学習、3Dおよび4Dシチュエーション、活性および特性予測、力場の作成、分子の生成において効果を発揮しています。他のディープラーニング技術と同様に、優れたモデリング精度を提供するためには、多くのトレーニングデータが必要です。しかし、現在の治療に関する文献のほとんどのトレーニングデータセットは、サンプルサイズが小さいです。驚くべきことに、最近の自己教師あり学習、コンピュータビジョンおよび自然言語処理のための基礎モデル、および深い理解の発展により、データの効率性が大幅に向上しました。
実際には、巨大なデータセットを使用して前処理において大量のデータを使用することで、リソースを一度費やすことで、ダウンストリームタスクにおけるデータの必要性を減らす学習済みの帰納的バイアスが示されています。これらの成果の後、他の研究では、少量のデータで分子モデリングを行うために大規模な分子グラフニューラルネットワークの事前学習の利点を検証しました。大きなラベル付き分子データセットの不足のため、これらの調査では対照的な学習、オートエンコーダ、またはノイズ除去タスクのような自己教師ありアプローチのみを使用することができました。これらのモデルからのファインチューニングによるNLPとCVの自己教師ありモデルの改善の一部しか、低データモデリングの試みではまだ生み出されていません。
分子およびそのコンフォマーの挙動は環境に依存し、主に量子物理学によって制御されるため、分子およびそのコンフォマーに対するグラフモデリングの不正確さは一部説明されます。例えば、構造が似ている分子でも、生物活性のレベルは大きく異なることが広く知られており、これをアクティビティクリフと呼ぶ現象がグラフモデリングのみに基づくことを制約しています。彼らの主張によれば、分子モデリングの効率的なベースモデルを開発するには、量子力学的記述と生物環境に依存したデータから導かれた情報を使用した教師ありトレーニングが必要です。
Québec AI Institute、Valence Labs、Université de Montréal、McGill University、Graphcore、New Jersey Institute of Technology、RWTH Aachen University、HEC Montréの研究者らは、分子研究に3つの貢献をしています。まず、現行技術よりも桁違いに大きなマルチタスクデータセットの新しいファミリーを提案します。次に、巨大データセットで効果的なトレーニングを可能にするグラフ機械学習パッケージであるGraphiumを紹介します。第3に、複数のタスクでのトレーニングの利益を示すさまざまなベースラインモデルを提供します。彼らは現在最大のものとして、約1億の分子と3000以上のスパースに定義されたアクティビティを持つ、3つの包括的かつ厳格に維持されたマルチラベルデータセットを提供します。これらのデータセットは、シミュレーションやウェットラボテストを通じて学習された量子および生物学的な特徴を記述するラベルを組み合わせており、基礎モデルの教師ありトレーニングに使用されます。ラベルがカバーする責任は、ノードレベルとグラフレベルの両方に及びます。
さまざまなラベルの存在は、効果的に転移スキルを獲得するのを容易にします。さまざまな下流分子モデリング活動のモデルの一般化を高めることで、基礎モデルを構築することが可能になります。彼らは既存のデータに対して細心の注意を払い、新しい情報を追加してこれらの広範なデータベースを作成しました。その結果、彼らのコレクションの各分子の記述には、量子力学的な特性と生物学的な機能に関する情報が含まれています。QM特性のエネルギー、電気、および幾何学的成分は、PM6などの半経験的な手法やB3LYPなどの密度汎関数理論に基づく手法など、さまざまな先端技術を使用して計算されます。図1に示すように、生物活性に関する彼らのデータベースには、毒性プロファイリング、遺伝子発現プロファイリング、および投与量応答生物試験からの分子シグネチャが含まれています。
図1:提案された分子データセットコレクションのビジュアル概要。“ミックス”は複数のタスクを同時に予想するために設計されています。それらはグラフレベルおよびノードレベルのジョブ、量子、化学、生物学の側面、カテゴリおよび連続データポイントを含んでいます。
量子効果と生物学的効果の同時モデリングにより、しばしば小規模な実験データセットからは得られない、複雑な環境依存的特性を分子の特徴づける能力が向上します。 Graphiumのグラフ機械学習ツールキットであるグラフィウムライブラリは、これらの巨大なマルチタスクデータセットでの効果的なトレーニングを可能にするために作成されました。この革新的なライブラリは、特徴アンサンブルと複雑な特徴の相互作用を含む分子グラフの基礎モデルの作成とトレーニングを簡素化します。 Graphiumは、以前の逐次的なサンプルに対して主に意味がないノード、エッジ、およびグラフの特性間の相互作用を考慮して、特徴と表現を基本的な構成要素と見なし、最先端のGNNレイヤーを追加することで、以前のフレームワークの制約に対処します。
さらに、グラフィウムは、データセットの組み合わせ、欠損データの処理、および共同トレーニングなどの機能を提供することで、大規模なデータセットアンサンブルでのモデルのトレーニングを簡単かつ高度に設定できるように処理します。提供されるデータセットの混合物について、彼らは単一データセットとマルチデータセットのシナリオでさまざまなモデルをトレーニングします。これらは信頼性のあるベースラインを提供し、これらのデータセットの今後のユーザーにとっての参考点となり、このマルチデータセットの方法論を使用してトレーニングする利点についてのいくつかの示唆を提供します。
結論として、この研究は最大の2D分子データセットを提供します。これらのデータセットは、分子の量子特性と生物学的柔軟性を正確に理解し、さまざまな下流アプリケーションに合わせるための基礎モデルをトレーニングするために明示的に作成されました。さらに、これらのモデルのトレーニングを簡素化し、使用されるデータセットとライブラリの潜在能力を示す異なるベースラインの結果を提供するために、グラフィウムライブラリを作成しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles