「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」
提案する新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダー
細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸鎖からなり、特定の形状に折りたたまれます。低コストのシーケンシング技術の発展により、最近では多くの新しいタンパク質配列が見つかっています。新しいタンパク質配列の機能注釈はまだ高コストで時間がかかるため、正確かつ効果的なインシリコタンパク質機能注釈方法が必要です。
多くのデータ駆動型のアプローチは、タンパク質構造の表現を学習することに依存しています。なぜなら、多くのタンパク質の機能は、折りたたまれ方によって制御されているからです。これらの表現は、タンパク質の設計、構造分類、モデルの品質評価、機能予測などのタスクに適用することができます。
実験的なタンパク質構造の同定が困難であるため、公開されたタンパク質構造の数は他の機械学習アプリケーション分野のデータセットの数に比べて桁違いに少ないです。たとえば、タンパク質データバンクには182,000個の実験的に確認された構造がありますが、Pfamには4,700万個のタンパク質配列、ImageNetには1,000万個の注釈付き画像があります。いくつかの研究では、未ラベルのタンパク質配列データの豊富さを活用して、既存のタンパク質の適切な表現を作成し、この表現のギャップを埋めるためにセルフスーパーバイズドラーニングを使用して、数百万の配列でプリトレーニングしたタンパク質エンコーダを開発しました。
- 新しいAI研究が、大規模言語モデル(LLMs)の能力を分析するためのプロンプト中心のアプローチを提案しています
- 清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました
- UCサンタクルーズとSamsungの研究者が、ナビゲーションの決定にChatGPTのようなLLM(言語モデル)で共通センスを活用するゼロショットオブジェクトナビゲーションエージェントであるESCを紹介しました
正確な深層学習ベースのタンパク質構造予測技術の最近の進歩により、多くのタンパク質配列の構造を効果的かつ自信を持って予測することが可能になりました。ただし、これらの技術は、タンパク質の機能を決定するために既知のタンパク質構造に関する情報を特に捉えたり使用したりしないです。構造ベースのタンパク質エンコーダは、より良い構造情報の利用のために提案されています。残念ながら、タンパク質構造をシミュレーションする上で重要なエッジ間の相互作用は、これらのモデルでは明示的に扱われていません。また、実験的に確立されたタンパク質構造の不足のため、3D構造の未ラベルのデータを活用するプリトレーニング技術の開発は、最近までほとんど行われていませんでした。
この進歩に触発されて、彼らはさまざまな特性予測アプリケーションに適用できるタンパク質エンコーダを作成し、最も実現可能なタンパク質構造上でプリトレーニングされます。彼らは、ジオメトリに注意した関係グラフニューラルネットワークという簡単かつ効率的な構造ベースのエンコーダを提案しています。このエンコーダは、さまざまな構造または順序エッジを含め、タンパク質残基グラフ上で関係メッセージパッシングを行います。彼らは、タンパク質構造エンコーダを改善するための疎なエッジメッセージパッシング技術を提案しています。これは、タンパク質構造エンコーディングにおいてエッジレベルのメッセージパッシングをGNNに初めて実装した取り組みです。彼らのアイデアは、Evoformerの三角形注意の設計に触発されました。
彼らはまた、タンパク質構造エンコーダを学習するためのよく知られた対比学習フレームワークに基づく幾何学的なプリトレーニングアプローチを提供しています。彼らは、同じタンパク質からのサブストラクチャの獲得表現間の類似性を高め、異なるタンパク質からの類似性を減少させる革新的なオーグメンテーション関数を提案しています。これにより、タンパク質中で共起する生理学的に関連するタンパク質サブストラクチャを見つけることができます。彼らは同時に、セルフ予測に基づいた一連のシンプルなベースラインも提案しています。
彼らは、プリトレーニング手法をいくつかの下流の特性予測タスクに対して比較することで、タンパク質構造表現のプリトレーニングの基盤を確立しました。これらのプリトレーニング問題には、残基の種類、ユークリッド距離、ジヒドラル角などのさまざまな幾何学的または物理化学的特性のマスクされた予測が含まれます。酵素コミッション番号の予測、遺伝子オントロジー用語の予測、フォールドの分類、反応の分類など、さまざまなベンチマークを使用した多くのテストでは、エッジメッセージパッシングを備えたGearNetが、監督環境のほとんどのタスクで既存のタンパク質エンコーダよりも一貫して優れたパフォーマンスを発揮することが示されています。
さらに、提案されたプリトレーニング戦略を使用することで、100万以下のサンプルでトレーニングされたモデルは、1,000万または10億のデータセットでプリトレーニングされた最先端のシーケンスベースのエンコーダと同等またはそれ以上の結果を得ることができます。コードベースはGithubで公開されています。PyTorchとTorch Drugで書かれています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します
- ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました
- 中国からの新しいAI研究は、機械学習の手法と質問を組み合わせることで、指導者と学生の関係のつながりに新たな次元を明らかにします
- 「人間の知能の解読:スタンフォードの最新のAI研究は、生来の数の感覚は学びのスキルなのか、自然の贈り物なのかを問いかける」
- RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です
- UCバークレーの研究者たちは、Gorillaという名前の、GPT-4を上回るAPIコールの記述において、Finetuned LLaMAベースのモデルを紹介しました
- 「CMUの研究者らが提案するGILL:LLMと画像エンコーダおよびデコーダモデルを統合するためのAIメソッド」