プロテオームスケールでの高精度なタンパク質構造予測を可能にする

Enable accurate protein structure prediction at the proteome scale.

AlphaFoldの手法

AlphaFoldの現在の精度には、多くの新しい機械学習のイノベーションが貢献しています。以下でシステムの概要を説明しますが、ネットワークアーキテクチャの技術的な説明については、AlphaFoldのメソッド論文と特にその詳細な補足情報を参照してください。

AlphaFoldネットワークは、2つの主要なステージで構成されています。ステージ1では、アミノ酸配列と複数の配列整列（MSA）を入力として受け取ります。その目標は、3D空間で近接していると考えられる残基のペアを情報として含んだ豊かな「ペアワイズ表現」を学習することです。

ステージ2では、この表現を使用して、各残基を個別のオブジェクトとして扱い、各残基を配置するために必要な回転と移動を予測し、最終的に構造化された鎖を組み立てることで、原子座標を直接生成します。ネットワークの設計は、タンパク質の物理学と幾何学に関する私たちの直感に基づいており、適用される更新や損失の選択などの形で表れています。

興味深いことに、ネットワークの中間層の表現を基に3D構造を生成することができます。生成された「軌跡」ビデオは、推論中にAlphaFoldの正しい構造に関する信念が層ごとにどのように発展していくかを示しています。通常、最初の数層で仮説が浮かび上がり、その後の長いリファインメントのプロセスが続くことが多いですが、一部のターゲットではネットワークの完全な深さが必要となる場合もあります。

ネットワークの各層でのCASP14ターゲットT1044、T1024、T1064の予測構造。構造は残基番号で色分けされ、カウンターが現在の層を表示しています。

精度と信頼性

AlphaFoldは、CASP14実験で厳密に評価されました。この実験では、未公開のタンパク質構造を参加者が盲目的に予測します。この手法は、多くの場合に高い精度を達成し、実験的な構造との平均RMSD-Cαが1Å未満となりました。私たちの論文では、より大規模な最近のPDBエントリのセットでモデルをさらに評価しています。その中で、大きなタンパク質では強力なパフォーマンスがあり、バックボーンが正確に予測された場合には良好な側鎖の精度もあります。

AlphaFoldのCASP14の精度（他の手法との比較）。各ターゲットの最も予測の良い95％の残基に基づくRMSD-Cα

構造予測の有用性において重要な要素は、関連する信頼性の高い信頼度の質です。モデルは、予測の信頼性が高いと考えられる部分を特定できるでしょうか？私たちは、この問いに対応するために、AlphaFoldネットワークの上に2つの信頼度の指標を開発しました。

最初の指標はpLDDT（予測されたlDDT-Cα）で、0から100のスケールでローカルな信頼度の残基ごとの測定です。pLDDTはチェーンに沿って劇的に変動する場合があり、例えば構造化されたドメインでは高い信頼度を表現できますが、それらの間のリンカーでは低い信頼度を表現できます。私たちの論文では、pLDDTが低い領域の一部は、単独では構造がない（本来の無秩序またはより大きな複合体の文脈でのみ構造化されている）可能性があることを示す証拠を提示しています。pLDDTが50未満の領域は、可能な無秩序予測として解釈すべきです。

2番目の指標はPAE（予測されたアラインエラー）であり、予測された構造と真の構造が残基yでアラインされた場合の残基xにおけるAlphaFoldの予測された位置エラーを報告します。これは、特にドメインパッキングにおけるグローバルな特徴の信頼度を評価するために役立ちます。2つの異なるドメインから抽出された残基xとyに対して一貫して低いPAEがある場合、AlphaFoldは相対的なドメインの位置に自信を持っていると示唆されます。一貫して高いPAEが（x、y）で得られる場合、ドメインの相対的な位置を解釈すべきではありません。PAEを生成するために使用される一般的な手法は、TMスコアやGDTなどのさまざまな重ね合わせベースのメトリクスを予測するために適応できます。

<img alt="2つの例のタンパク質（P54725、Q5VSL9）の残基ごとの信頼度（pLDDT）と予測されたアラインエラー（PAE）。両方のタンパク質には信頼性の高い個々のドメインがありますが、後者には相対的なドメインの位置も自信があります。注：Q5VSL9はこの予測が生成された後に解かれました。

重要なことを強調するために、AlphaFoldモデルは最終的には予測です。しばしば非常に正確ですが、間違いもあります。予測された原子座標は注意深く解釈する必要があり、これらの信頼度の評価との文脈で考える必要があります。

オープンソース化

手法論の論文と共に、私たちはAlphaFoldのソースコードをGitHubで利用可能にしました。これにはトレーニングされたモデルへのアクセスと、新しい入力配列に対する予測を行うためのスクリプトが含まれています。これは私たちの業績を使用し、それをさらに発展させるための重要な一歩だと考えています。AlphaFoldを使用して単一の新しいタンパク質を折りたたむ最も簡単な方法は、私たちのColabノートブックを使用することです。

オープンソースコードは、JAXフレームワークに基づいた私たちのCASP14システムの最新バージョンであり、同様に高い精度を達成しています。また、いくつかの最近のパフォーマンスの改善も組み込まれています。AlphaFoldの速度は常に入力配列の長さに大きく依存しており、短いタンパク質は数分で処理され、非常に長いタンパク質は数時間かかります。MSAが組み立てられた後、オープンソース版はV100のGPU時間で400残基のタンパク質の構造を1分以上で予測することができます。

プロテオームスケールとAlphaFold DB

AlphaFoldの高速な推論時間により、この手法をプロテオーム全体のスケールで適用することができます。私たちの論文では、人間のプロテオームに対するAlphaFoldの予測について議論しています。しかし、その後、いくつかのモデル生物、病原体、および経済的に重要な種の参照プロテオームの予測を生成し、大規模な予測は現在は日常的なものとなっています。興味深いことに、私たちは種によってpLDDT分布に違いを観察しており、一般的にはバクテリアと古細菌で高い信頼度があり、真核生物では低い信頼度があることが示唆されています。これは、これらのプロテオーム内の無秩序性の普及と関連している可能性があると仮説化されています。

ひとつの研究グループだけではこのような大規模なデータセットを完全に探索することはできません。そのため、私たちはEMBL-EBIと提携し、AlphaFold DBを介して予測を無料で提供しています。各予測は、上記で説明した信頼度の指標とともに表示することができます。また、各種類のデータについての一括ダウンロードも提供されており、すべてのデータはCC-BY-4.0ライセンスの対象となっています（学術的な利用および商業利用の両方で無料で利用可能）。私たちはこの新しいリソースを開発するためにEMBL-EBIとの協力に非常に感謝しています。今後数か月間にわたり、私たちはUniRef90の1億以上のタンパク質をカバーするデータセットを拡大する予定です。

Example: AlphaFold DB predictions from a variety of organisms. — 例：さまざまな生物からのAlphaFold DBの予測

Distribution of per-residue confidence for 14 species; left to right: bacteria / archaea, animals, and protists. — 14種の生物における残基ごとの信頼度の分布；左から右へ：バクテリア/古細菌、動物、原生生物

AlphaFold DBでは、個々のドメインに切り取るのではなく、最大2700個のアミノ酸からなる完全なタンパク質鎖の予測を共有することを選択しました。これは、まだ注釈されていない構造化領域を見逃すことを避けるための理論です。また、完全なアミノ酸配列からの文脈を提供し、ドメインパッキング予測を試みることも可能にします。AlphaFoldのドメイン内精度はCASP14で詳しく評価され、ドメイン間精度よりも高いと予想されています。ただし、AlphaFoldはドメイン間評価でトップランクのメソッドであり、いくつかのケースで有益な予測を行うと期待されています。ドメイン配置が意味を持つ可能性があるかどうかを判断するために、PAEプロットを表示することをお勧めします。

今後の展望

計算構造生物学の未来に興奮しています。解決すべき重要なトピックはまだ多くあります。複合体の構造を予測すること、非タンパク質成分を組み込むこと、およびポイント変異に対する動態と応答を捉えることなどです。AlphaFoldのようなネットワークアーキテクチャの開発は、タンパク質構造を理解するタスクで優れた性能を発揮することから、関連する問題に進展をもたらすことができるという楽観的な見方を示しています。

私たちは、AlphaFoldを実験的な構造生物学における補完技術と考えています。これは、分子置換やクライオ電子顕微鏡データへのドッキングなどを通じて、実験的な構造解析に貢献する役割を果たしていることで最もよく示されています。両方のアプリケーションは既存の研究を加速し、数か月の労力を節約することができます。バイオインフォマティクスの観点からは、AlphaFoldの高速性により、大規模なシーケンスデータベースの内容の構造的な調査をサポートする予測構造の生成が可能となります。これにより、新たな研究の可能性が開かれることがあります。

最終的には、AlphaFoldがタンパク質空間を明らかにするための有用なツールとなることを願っており、今後数ヶ月や数年にわたってどのように適用されるかを楽しみにしています。

‍

AlphaFoldとAlphaFold DBが研究にどのように役立っているか、またフィードバックをお聞かせいただければ幸いです。[email protected] まで、あなたのストーリーを共有してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

プロテオームスケールでの高精度なタンパク質構造予測を可能にする

AlphaFoldの手法

精度と信頼性

オープンソース化

プロテオームスケールとAlphaFold DB

今後の展望

Was this article helpful?

アルファフォールドの力を世界の手に

メルティングポット：マルチエージェント強化学習の評価スイート

AIテクノロジー

「2023年に注目すべきトップホームセキュリティ企業」

『nnU-Netの究極ガイド』

Insightly マーケティングの価格、プラン、およびメリットに関する完全ガイド

成功の鍵を開ける：IBM Watsonがあなたのビジネスを革命する方法

2023年の銀行システムにおける対話型AI開発のコスト

「医療保険の種類と現代の技術」