「タンパク質設計の次は何か?マイクロソフトの研究者がエボディフ:シーケンスファーストのタンパク質エンジニアリングのための画期的なAIフレームワークを紹介」

Microsoft researchers introduce groundbreaking AI framework for protein engineering after protein design What's next?

ディープ生成モデルは、新規タンパク質のインシリコ創造において、ますます有効なツールとなっています。拡散モデルは、最近の研究で、自然界で見られる実際のタンパク質とは異なる生理学的に妥当なタンパク質を生成することが示された生成モデルの一種であり、デノボタンパク質設計において比類のない能力と制御を可能にします。ただし、現在の最先端のモデルはタンパク質構造を構築するため、トレーニングデータの幅を制限し、生成をタンパク質設計空間のごく一部で行うことに制約を受けます。マイクロソフトの研究者は、進化的スケールのデータと拡散モデルの独自の条件付け能力を組み合わせることで、チューナブルなタンパク質生成をシーケンス空間で実現する汎用の拡散フレームワークであるEvoDiffを開発しました。EvoDiffは、構造的に妥当なタンパク質を多様に作り出し、可能なシーケンスと機能の全範囲をカバーすることができます。シーケンスベースの定式化の普遍性は、EvoDiffが構造ベースのモデルではアクセスできないタンパク質を構築できること、例えば無秩序なセクションを持つタンパク質や有用な構造モチーフのためのスキャフォールドを設計できることによって示されています。彼らは、EvoDiffがタンパク質工学におけるプログラマブルなシーケンスファースト設計の道を切り拓くことを期待しています。

EvoDiffは、進化的スケールのデータセットと拡散モデルを組み合わせて、シーケンスデータだけからプログラマブルなタンパク質生成のための革新的な生成モデリングシステムです。彼らは、前方プロセスがタンパク質の配列を繰り返し変更することによってタンパク質の配列を逐次的に破損させる離散的な拡散フレームワークを使用し、ニューラルネットワークによってパラメータ化された学習済みの逆プロセスが各反復で行われた変更を予測することで、タンパク質をトークンのシーケンスとしてフレーム化しているアミノ酸言語上の離散的なトークンのシーケンス。

プロテインのシーケンスは、逆メソッドを使用してゼロから作成することができます。タンパク質構造設計に従来使用されてきた連続的な拡散定式化と比較して、EvoDiffで使用されている離散的な拡散定式化は、数学的に重要な改善として際立っています。複数の配列アラインメント(MSA)は、関連するタンパク質群のアミノ酸配列の変異の保存パターンを示し、単一のタンパク質配列の進化的なリンクを捉えることができます。この進化的な情報のさらなる深さを活用するために、彼らはMSAでトレーニングされた離散的な拡散モデルを構築し、新しい単線を生成します。

チューナブルなタンパク質設計の有効性を示すために、研究者は、さまざまな世代活動のスペクトルでシーケンスとMSAモデル(それぞれEvoDiff-SeqとEvoDiff-MSA)を調査します。彼らは、EvoDiff-Seqが自然界のタンパク質の組成と機能を正確に反映した高品質で多様なタンパク質を信頼性良く生成することを示します。EvoDiff-MSAは、類似したがユニークな進化の歴史を持つタンパク質をアラインメントすることにより、新しい配列のガイド付き開発を可能にします。最後に、EvoDiffは、構造ベースの生成モデルの主要な制約を直接克服することができるIDRを持つタンパク質を信頼性良く生成し、拡散ベースのモデリングフレームワークの条件付け能力と普遍的な設計空間に基づいて、明示的な構造情報なしで機能的な構造モチーフのスキャフォールドを生成することができます。

シーケンス制約に基づいて調整可能な多様な新しいタンパク質を生成するために、研究者はEvoDiffという拡散モデリングフレームワークを提案しています。構造ベースのタンパク質設計のパラダイムに挑戦することにより、EvoDiffは、シーケンスデータから本質的に無秩序な領域を生成し、スキャフォールド構造モチーフを生成することで、構造的に妥当なタンパク質の多様性を無条件にサンプリングすることができます。タンパク質の配列進化において、EvoDiffは拡散生成モデリングの有効性を示す最初のディープラーニングフレームワークです。

作成されたシーケンスが望ましい特性を満たすように反復的に調整されるガイド付きの条件付けは、将来の研究でこれらの機能に追加することができます。EvoDiff-D3PMフレームワークは、各デコーディングステップでシーケンスの各残基のアイデンティティを編集することができるため、ガイダンスによる条件付けが働くために適しています。ただし、研究者は、OADMが一般的にD3PMよりも無条件の生成で優れたパフォーマンスを発揮することを観察しており、おそらくOADMのノイズ除去タスクの方がD3PMよりも学習しやすいためです。残念ながら、既存の条件付きLRARモデルであるProGen(54)などのOADMや他の既存の条件付きLRARモデルによって、ガイダンスの有効性が低下することが観察されています。EvoDiff-D3PMを機能目標で条件付けることによって、新しいタンパク質の配列が生成されることが期待されています。

EvoDiffのデータ要件の最小限は、構造ベースのアプローチでは可能ではなかった、将来の応用に容易に適応できることを意味します。研究者は、EvoDiffが微調整なしでIDRを含んだインペインティングを通じて生成できることを示し、構造ベースの予測モデルや生成モデルの古典的な落とし穴を回避することができます。大規模なシーケンスデータセットの構造を取得する高コストは、ディスプレイライブラリや大規模スクリーンなどのアプリケーション固有のデータセットでEvoDiffを微調整することで解放されるかもしれない、新しい生物学的、医学的、または科学的な設計オプションの使用を妨げる可能性があります。AlphaFoldなどの関連するアルゴリズムは、多くの配列に対して構造を予測することができますが、ポイント変異には苦労し、見かけのタンパク質の構造を示す際に過信することがあります。

研究者たちは、プロテインの機能をより細かく制御するために、EvoDiffはテキスト、化学情報、または他のモダリティに基づいて条件付けることができます。将来的には、このチューナブルなプロテイン配列設計の概念は、さまざまな方法で活用されるでしょう。例えば、条件付きで設計された転写因子やエンドヌクレアーゼを使用して、核酸をプログラム的に調節することができます。生物学的製剤は、in vivoでの配送とトラフィックへの最適化が可能になります。また、酵素-基質の特異性のゼロショットチューニングは、新たな触媒の可能性を開くことができます。

データセット

Uniref50は、研究者によって使用される約4200万のプロテイン配列を含むデータセットです。MSAはOpenFoldデータセットから取得されており、16,000,000のUniClust30クラスタと401,381のMSAで140,000の異なるPDB鎖をカバーしています。IDR(intrinsically disordered regions)に関する情報は、Reverse Homology GitHubから取得されました。

研究者は、スキャフォールディング構造モチーフの課題に対してRFDiffusionベースラインを使用しています。examples/scaffolding-pdbsフォルダには、条件付きでシーケンスを生成するために使用できるpdbファイルとfastaファイルがあります。examples/scaffolding-msasフォルダには、特定の条件に基づいてMSAを作成するために使用できるpdbファイルも含まれています。

現在のモデル

研究者は、離散データモダリティ上の拡散のための最も効率的な前方技術を決定するために、両方を調査しました。オーダーに関係なく自己回帰分布(OADM)の各ステップで1つのアミノ酸は一意のマスクトークンに変換されます。全体のシーケンスは、一定のステージ後に非表示になります。離散ノイズ除去拡散確率モデル(D3PM)も、特にプロテイン配列向けにグループによって開発されました。EvoDiff-D3PMの前方フェーズでは、行は遷移行列に従って突然変異をサンプリングすることで破損させられます。これは数ステップ後に均一なアミノ酸のサンプルと区別できなくなるまで続きます。いずれの場合も、回復フェーズではダメージを元に戻すためにニューラルネットワークモデルの再学習が行われます。EvoDiff-OADMおよびEvoDiff-D3PMでは、訓練されたモデルはマスクトークンのシーケンスまたは均一にサンプリングされたアミノ酸のシーケンスから新しいシーケンスを生成することができます。CARPプロテインマスク言語モデルで最初に見られた拡張された畳み込みニューラルネットワークアーキテクチャを使用して、彼らはUniRef50からの4200万シーケンスですべてのEvoDiffシーケンスモデルを訓練しました。各前方破損スキームとLRARデコーディングについて、38Mと640Mの訓練パラメータを持つバージョンを開発しました。

主な特徴

  • 進化的なスケールのデータを拡散モデルに組み込むことで、管理可能なプロテイン配列を生成することができます。
  • EvoDiffは、構造的に妥当な多様なプロテインを生成し、可能なシーケンスと機能の全範囲をカバーします。
  • 構造ベースのモデルではアクセスできない無秩序なセクションやその他の特徴を持つプロテインを生成するだけでなく、EvoDiffは機能的な構造モチーフのためのスキャフォールドも作成することができます。これにより、シーケンスベースの定式化の一般的な適用性が証明されます。

結論として、Microsoftの科学者たちは、シーケンスベースのプロテインエンジニアリングとデザインを行う際に基礎となる一連の離散拡散モデルをリリースしました。EvoDiffモデルは、構造や機能に基づいたガイド付きデザインのために拡張することが可能であり、無条件、進化によるガイド、および条件付きでプロテイン配列を作成するために直ちに使用することができます。彼らは、プロテインの言語で直接読み書きすることによって、EvoDiffがプログラマブルなプロテイン生成の新たな可能性を開くことを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模言語モデルの品質をどのように向上させることができるのか? PIT:暗黙の自己改善フレームワークに会ってください」

LLMは、数学的な推論、要約、会話、スキーマの導出、ドメイン固有の問題解決など、さまざまな複雑なタスクで最先端の結果を達...

機械学習

「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパー...

コンピュータサイエンス

ハーバード大学の新しいコンピューターサイエンスの先生は、チャットボットです

大学の主力コンピュータサイエンスの授業であるCS50に登録している学生は、9月にAI教師が提示されます

機械学習

メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメン...

機械学習

医学論文のLLaMAのFine-tuning:バイオメディカルQAベンチマークで高い性能を発揮するPMC-LLaMA-Aモデルに出会ってください

大規模言語モデル(LLM)の開発、例えばOpenAIのChatGPTやGPT-4などは、自然言語処理、コンピュータビジョン、バイオメディカ...

AI研究

清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました

深層学習の教師ありタスクにおける最近の成果は、大量のラベル付きトレーニングデータの利用可能性によるものです。しかし、...