「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

提案する新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダー

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸鎖からなり、特定の形状に折りたたまれます。低コストのシーケンシング技術の発展により、最近では多くの新しいタンパク質配列が見つかっています。新しいタンパク質配列の機能注釈はまだ高コストで時間がかかるため、正確かつ効果的なインシリコタンパク質機能注釈方法が必要です。

多くのデータ駆動型のアプローチは、タンパク質構造の表現を学習することに依存しています。なぜなら、多くのタンパク質の機能は、折りたたまれ方によって制御されているからです。これらの表現は、タンパク質の設計、構造分類、モデルの品質評価、機能予測などのタスクに適用することができます。

実験的なタンパク質構造の同定が困難であるため、公開されたタンパク質構造の数は他の機械学習アプリケーション分野のデータセットの数に比べて桁違いに少ないです。たとえば、タンパク質データバンクには182,000個の実験的に確認された構造がありますが、Pfamには4,700万個のタンパク質配列、ImageNetには1,000万個の注釈付き画像があります。いくつかの研究では、未ラベルのタンパク質配列データの豊富さを活用して、既存のタンパク質の適切な表現を作成し、この表現のギャップを埋めるためにセルフスーパーバイズドラーニングを使用して、数百万の配列でプリトレーニングしたタンパク質エンコーダを開発しました。

正確な深層学習ベースのタンパク質構造予測技術の最近の進歩により、多くのタンパク質配列の構造を効果的かつ自信を持って予測することが可能になりました。ただし、これらの技術は、タンパク質の機能を決定するために既知のタンパク質構造に関する情報を特に捉えたり使用したりしないです。構造ベースのタンパク質エンコーダは、より良い構造情報の利用のために提案されています。残念ながら、タンパク質構造をシミュレーションする上で重要なエッジ間の相互作用は、これらのモデルでは明示的に扱われていません。また、実験的に確立されたタンパク質構造の不足のため、3D構造の未ラベルのデータを活用するプリトレーニング技術の開発は、最近までほとんど行われていませんでした。

この進歩に触発されて、彼らはさまざまな特性予測アプリケーションに適用できるタンパク質エンコーダを作成し、最も実現可能なタンパク質構造上でプリトレーニングされます。彼らは、ジオメトリに注意した関係グラフニューラルネットワークという簡単かつ効率的な構造ベースのエンコーダを提案しています。このエンコーダは、さまざまな構造または順序エッジを含め、タンパク質残基グラフ上で関係メッセージパッシングを行います。彼らは、タンパク質構造エンコーダを改善するための疎なエッジメッセージパッシング技術を提案しています。これは、タンパク質構造エンコーディングにおいてエッジレベルのメッセージパッシングをGNNに初めて実装した取り組みです。彼らのアイデアは、Evoformerの三角形注意の設計に触発されました。

彼らはまた、タンパク質構造エンコーダを学習するためのよく知られた対比学習フレームワークに基づく幾何学的なプリトレーニングアプローチを提供しています。彼らは、同じタンパク質からのサブストラクチャの獲得表現間の類似性を高め、異なるタンパク質からの類似性を減少させる革新的なオーグメンテーション関数を提案しています。これにより、タンパク質中で共起する生理学的に関連するタンパク質サブストラクチャを見つけることができます。彼らは同時に、セルフ予測に基づいた一連のシンプルなベースラインも提案しています。

彼らは、プリトレーニング手法をいくつかの下流の特性予測タスクに対して比較することで、タンパク質構造表現のプリトレーニングの基盤を確立しました。これらのプリトレーニング問題には、残基の種類、ユークリッド距離、ジヒドラル角などのさまざまな幾何学的または物理化学的特性のマスクされた予測が含まれます。酵素コミッション番号の予測、遺伝子オントロジー用語の予測、フォールドの分類、反応の分類など、さまざまなベンチマークを使用した多くのテストでは、エッジメッセージパッシングを備えたGearNetが、監督環境のほとんどのタスクで既存のタンパク質エンコーダよりも一貫して優れたパフォーマンスを発揮することが示されています。

さらに、提案されたプリトレーニング戦略を使用することで、100万以下のサンプルでトレーニングされたモデルは、1,000万または10億のデータセットでプリトレーニングされた最先端のシーケンスベースのエンコーダと同等またはそれ以上の結果を得ることができます。コードベースはGithubで公開されています。PyTorchとTorch Drugで書かれています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自動化、Ansible、人工知能

AnsibleがAIツールを統合開発環境に導入し、自動化コーディングの経験をよりシンプルでスムーズかつ効率的にする方法について...

機械学習

「低コスト四足ロボットはパルクールをマスターできるのか? アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...

機械学習

「自然界がコンピュータビジョンの未来を支える」

オープンソースのソフトウェアシステムは、自然界の写実的なシーンの無限の数を素早く生成することにより、コンピュータビジ...

AIニュース

「Hill Climbing Algorithm in AIとは何ですか?」

はじめに 人工知能(AI)の複雑な世界では、ヒルクライミングアルゴリズムが問題解決のための基本的な手法として登場します。...

AI研究

韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩

この論文では、以前のモデルのさまざまな側面を改善することにより、より自然な音声を合成する単一ステージのテキストから音...

機械学習

主要な金融グループは、AWSのポストコール分析ソリューションを使用して、オムニチャネルの顧客洞察を抽出しています

「事業140年以上の確立された金融サービス企業、プリンシパルは、グローバルな投資管理のリーダーであり、世界中で6,200万人...