「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

提案する新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダー

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸鎖からなり、特定の形状に折りたたまれます。低コストのシーケンシング技術の発展により、最近では多くの新しいタンパク質配列が見つかっています。新しいタンパク質配列の機能注釈はまだ高コストで時間がかかるため、正確かつ効果的なインシリコタンパク質機能注釈方法が必要です。

多くのデータ駆動型のアプローチは、タンパク質構造の表現を学習することに依存しています。なぜなら、多くのタンパク質の機能は、折りたたまれ方によって制御されているからです。これらの表現は、タンパク質の設計、構造分類、モデルの品質評価、機能予測などのタスクに適用することができます。

実験的なタンパク質構造の同定が困難であるため、公開されたタンパク質構造の数は他の機械学習アプリケーション分野のデータセットの数に比べて桁違いに少ないです。たとえば、タンパク質データバンクには182,000個の実験的に確認された構造がありますが、Pfamには4,700万個のタンパク質配列、ImageNetには1,000万個の注釈付き画像があります。いくつかの研究では、未ラベルのタンパク質配列データの豊富さを活用して、既存のタンパク質の適切な表現を作成し、この表現のギャップを埋めるためにセルフスーパーバイズドラーニングを使用して、数百万の配列でプリトレーニングしたタンパク質エンコーダを開発しました。

正確な深層学習ベースのタンパク質構造予測技術の最近の進歩により、多くのタンパク質配列の構造を効果的かつ自信を持って予測することが可能になりました。ただし、これらの技術は、タンパク質の機能を決定するために既知のタンパク質構造に関する情報を特に捉えたり使用したりしないです。構造ベースのタンパク質エンコーダは、より良い構造情報の利用のために提案されています。残念ながら、タンパク質構造をシミュレーションする上で重要なエッジ間の相互作用は、これらのモデルでは明示的に扱われていません。また、実験的に確立されたタンパク質構造の不足のため、3D構造の未ラベルのデータを活用するプリトレーニング技術の開発は、最近までほとんど行われていませんでした。

この進歩に触発されて、彼らはさまざまな特性予測アプリケーションに適用できるタンパク質エンコーダを作成し、最も実現可能なタンパク質構造上でプリトレーニングされます。彼らは、ジオメトリに注意した関係グラフニューラルネットワークという簡単かつ効率的な構造ベースのエンコーダを提案しています。このエンコーダは、さまざまな構造または順序エッジを含め、タンパク質残基グラフ上で関係メッセージパッシングを行います。彼らは、タンパク質構造エンコーダを改善するための疎なエッジメッセージパッシング技術を提案しています。これは、タンパク質構造エンコーディングにおいてエッジレベルのメッセージパッシングをGNNに初めて実装した取り組みです。彼らのアイデアは、Evoformerの三角形注意の設計に触発されました。

彼らはまた、タンパク質構造エンコーダを学習するためのよく知られた対比学習フレームワークに基づく幾何学的なプリトレーニングアプローチを提供しています。彼らは、同じタンパク質からのサブストラクチャの獲得表現間の類似性を高め、異なるタンパク質からの類似性を減少させる革新的なオーグメンテーション関数を提案しています。これにより、タンパク質中で共起する生理学的に関連するタンパク質サブストラクチャを見つけることができます。彼らは同時に、セルフ予測に基づいた一連のシンプルなベースラインも提案しています。

彼らは、プリトレーニング手法をいくつかの下流の特性予測タスクに対して比較することで、タンパク質構造表現のプリトレーニングの基盤を確立しました。これらのプリトレーニング問題には、残基の種類、ユークリッド距離、ジヒドラル角などのさまざまな幾何学的または物理化学的特性のマスクされた予測が含まれます。酵素コミッション番号の予測、遺伝子オントロジー用語の予測、フォールドの分類、反応の分類など、さまざまなベンチマークを使用した多くのテストでは、エッジメッセージパッシングを備えたGearNetが、監督環境のほとんどのタスクで既存のタンパク質エンコーダよりも一貫して優れたパフォーマンスを発揮することが示されています。

さらに、提案されたプリトレーニング戦略を使用することで、100万以下のサンプルでトレーニングされたモデルは、1,000万または10億のデータセットでプリトレーニングされた最先端のシーケンスベースのエンコーダと同等またはそれ以上の結果を得ることができます。コードベースはGithubで公開されています。PyTorchとTorch Drugで書かれています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

クロードAIに無料でアクセスする3つの方法

定期購読料なしで、主要な対話型AIモデルの1つを体験してください

AI研究

Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク

機械学習の絶え間なく進化する風景において、特徴管理はAirbnbのMLエンジニアにとって重要な課題となっています。彼らはさま...

機械学習

「Intuitivoは、AWS InferentiaとPyTorchを使用して、AI/MLのコストを節約しながら、より高いスループットを実現します」

「これは、インテュイティボの創設者兼ディレクターであるホセ・ベニテスと、インフラストラクチャの責任者であるマティアス...

データサイエンス

ChatGPTが知能的ですか? 科学的なレビュー

約1年前、OpenAIはChatGPTをリリースし、世界中を席巻しましたChatGPTは、コンピュータとの対話を、従来のより制約の少ない、...

機械学習

「さまざまな深層学習を用いた天気予測モデルに関する研究」

気象予測の世界的な影響を考慮して、様々な研究コミュニティの研究者の関心を引いてきました。最近のディープラーニング技術...

データサイエンス

研究:AIモデルはルール違反に関する人間の判断を再現できない

研究者によると、一般的なデータ収集技術を用いて訓練されたモデルは、人間よりもルール違反を厳しく判断する傾向があると報...