AlphaFold 生物学における50年間の偉大な課題への解決策

AlphaFold 生物学の50年間の課題を解決する解決策

2022年7月、ほぼ全ての科学におけるカタログ化されたタンパク質の構造予測「AlphaFold」を公開しました。最新のブログはこちらをご覧ください。

タンパク質は生命の機能を実現するために不可欠です。タンパク質はアミノ酸の鎖から成る大きな複雑な分子であり、タンパク質の機能はその独自の3D構造に大きく依存しています。タンパク質がどのような形状に折り畳まれるかを解明することは、「タンパク質の折り畳み問題」として知られ、過去50年間にわたり生物学の大きな課題となってきました。最新バージョンのAIシステム、AlphaFoldは、2年ごとに行われるタンパク質構造予測の重要評価「CASP(Critical Assessment of protein Structure Prediction)」の主催者によって、この大きな課題の解決策として認識されました。このブレイクスルーは、AIが科学的な発見に与える影響と、世界を説明し形作る最も基本的な分野の進展を劇的に加速させる可能性を示しています。

タンパク質の形状はその機能と密接に関連しており、この構造を予測する能力は、その機能や作用機序についての理解を深めることができます。疾病の治療法の開発や産業廃棄物を分解する酵素の発見など、世界の最大の課題の多くは、タンパク質とその役割と密接に関連しています。

私たちは50年近くもの間、タンパク質がどのように折り畳まれるかという問題に取り組んできました。DeepMindがこの問題の解決策を提供するのを見ることは、私自身がこの問題に取り組んで長い時間をかけてきた中で、何度も試行錯誤を繰り返し、果たして解決策に辿り着くことができるのかと思っていた中で、非常に特別な瞬間です。 ‍ – メリーランド大学の共同創設者および議長であるジョン・モルト教授

これは多年にわたる集中的な科学研究の焦点であり、核磁気共鳴やX線結晶構造解析などのさまざまな実験手法を使用してタンパク質の構造を調べ、決定するためのものです。これらの技術に加えて、クライオ電子顕微鏡などの新しい手法も利用されますが、試行錯誤に依存しており、1つの構造につき何年もの骨折り作業が必要であり、数百万ドルの特殊装置が必要です。

「タンパク質の折り畳み問題」

クリスチャン・アンフィンセンは、1972年のノーベル化学賞の受賞講演で、理論上、タンパク質のアミノ酸配列が完全にその構造を決定するはずだと提唱しました。この仮説は、高価で時間のかかる実験的手法の代わりとして、タンパク質の1Dアミノ酸配列に基づいてコンピュータ上でタンパク質の3D構造を予測することができるようになることを目指して、50年にわたる探求を引き起こしました。しかし、大きな課題の1つは、タンパク質が最終的な3D構造に落ち着く前に、理論的にはタンパク質が折り畳むことができる方法の数が膨大であることです。1969年、シロス・レヴィンタールは、典型的なタンパク質の可能な構造の数を総当たり計算で列挙するには既知の宇宙の寿命以上の時間がかかると指摘しました。レヴィンタールは、典型的なタンパク質の可能な構造は10^300であると推定しました。しかし、自然界ではタンパク質は自発的に折り畳まれ、その中にはミリ秒の範囲で折り畳まれるものもあります。これは、レヴィンタールのパラドックスと呼ばれることがあります。

CASP14評価の結果

1994年、ジョン・モルト教授とクシシュトフ・フィデリス教授は、CASPを創設しました。CASPは、タンパク質構造予測の研究を促進し、進歩を監視し、最新の技術の状態を確立するための2年ごとの盲検評価です。これは、予測技術の評価のための金字塔であり、共同の取り組みに基づくユニークなグローバルコミュニティです。CASPは、まだ実験的に決定されていない(評価時点では決定待ちのものもあります)タンパク質構造を、予測チームがその構造予測手法をテストするためのターゲットとして選びます。これらの予測は、実験的データが利用可能になった時点で、正解の実験データと比較されます。私たちは、CASPの主催者や全コミュニティ、特に実験者たちに感謝しています。彼らの構造は、このような厳密な評価を可能にします。

CASPが予測の正確さを測るために使用する主な指標は、グローバル距離テスト(GDT)です。GDTは0から100までの範囲であり、簡単に言えば、正しい位置からの閾値距離内にあるアミノ酸残基(タンパク質鎖のビーズ)の割合として近似的に考えることができます。ジョン・モルト教授によれば、GDTのスコアが約90であれば、実験的手法で得られる結果と競争力があると非公式に考えられています。

14回目のCASP評価の結果、私たちの最新のAlphaFoldシステムは、全ターゲットにおいて平均GDTスコア92.4を達成しました。これは、私たちの予測の平均誤差(RMSD)が約1.6オングストローム(アトムの直径に相当する)であることを意味します。最も困難なタンパク質ターゲットである最も挑戦的な自由モデリングカテゴリーにおいても、AlphaFoldは平均GDTスコア87.0を達成しています(データはこちらでご覧いただけます)。

各CASPで最も優れたチームの自由モデリングカテゴリにおける予測の中央値精度の向上。ベストオブ5 GDTで測定されています。
自由モデリングカテゴリのタンパク質ターゲットの2つの例。AlphaFoldは実験結果と比較して非常に正確な構造を予測します。

これらの興奮する結果により、生物学者が計算構造予測を科学研究の中核ツールとして使用する可能性が広がりました。特に、結晶化が非常に困難であり、実験的に決定することが難しい膜タンパク質などの重要なタンパク質クラスに対して、私たちの手法は特に役立つ可能性があります。

この計算作業は、生物学の50年以上にわたる大きな課題であるタンパク質の折りたたみ問題における驚異的な進展を表しています。これは、この分野の多くの人々が予測したよりもはるかに前に起こりました。それが生物学研究を根本的に変える多くの方法を見るのは興奮するでしょう。 – ヴェンキ・ラマクリシュナン教授、ノーベル賞受賞者、ロイヤル協会会長

タンパク質の折りたたみ問題へのアプローチ

私たちは最初にAlphaFoldの最初のバージョンを持って2018年にCASP13に参加し、参加者の中で最も高い精度を達成しました。その後、私たちはCASP13の方法に関する論文をNatureで発表し、関連コードも公開し、他の研究やコミュニティによって開発されたオープンソースの実装に影響を与えました。現在、私たちが開発した新しいディープラーニングアーキテクチャにより、CASP14のための私たちの手法を変え、比類のない精度を実現することができました。これらの手法は、生物学、物理学、および機械学習の分野からのインスピレーションを受けており、もちろん過去半世紀にわたるタンパク質の折りたたみ分野の多くの科学者の業績も含まれています。

折りたたまれたタンパク質は、「空間グラフ」として考えることができます。残基はノードであり、近接する残基を接続するエッジがあります。このグラフは、タンパク質内の物理的な相互作用および進化の歴史を理解するために重要です。CASP14で使用される最新バージョンのAlphaFoldでは、進化的に関連する配列、多重配列アラインメント(MSA)、およびアミノ酸残基対の表現を使用して、このグラフの構造を解釈し、構築している間に推論を行う、アテンションベースのニューラルネットワークシステムを作成しました。

このプロセスを繰り返すことで、システムはタンパク質の基盤となる物理的な構造の強力な予測を開発し、数日で非常に正確な構造を決定することができます。さらに、AlphaFoldは内部の信頼度測定を使用して、各予測されたタンパク質構造の信頼性のある部分を予測することができます。

私たちは、公開されているデータ(蛋白質データバンクからの約170,000のタンパク質構造と、未知の構造を持つタンパク質配列の大規模なデータベース)でこのシステムをトレーニングしました。数週間にわたって実行された16個のTPUv3(128個のTPUv3コア、またはおおよそ100-200個のGPUに相当)を使用し、機械学習の最新の大規模モデルの文脈では比較的控えめな計算量です。CASP13のAlphaFoldシステムと同様に、私たちは近日中に査読付きジャーナルに提出するための論文を準備しています。

主要なニューラルネットワークモデルアーキテクチャの概要。モデルは進化的に関連するタンパク質配列とアミノ酸残基対の両方にわたって情報を反復的に伝達し、構造を生成します。

現実世界への影響の可能性

DeepMindは10年前に始まり、AIのブレークスルーが基本的な科学的問題の理解を進めるプラットフォームとして役立つことを願っていました。AlphaFoldを4年間かけて構築した今、薬物設計や環境の持続可能性などの領域に影響を与えるビジョンが実現し始めています。

アンドレイ・ルーパス教授は、Max Planck発生生物学研究所の所長であり、CASPの評価者でもありますが、「AlphaFoldの驚くべき正確なモデルによって、10年近くも行き詰まっていたタンパク質の構造を解決することができました。これにより、細胞膜を介して信号がどのように伝達されるのかを理解する取り組みを再開することができました」と伝えています。

私たちは、AlphaFoldが生物学研究や広範な分野に与える影響に楽観的であり、将来の数年間でその潜在能力についてさらに学ぶために他の人々と協力することを楽しみにしています。査読付きの論文を執筆する一方で、システムへのより広範なアクセスを提供するための最良の方法を検討しています。

一方、タンパク質構造予測が特定の疾患の理解にどのように貢献できるかを専門家グループの少数を対象に調査しています。たとえば、異常が発生したタンパク質の同定や相互作用の推論に役立つことで、特定の疾患の理解に寄与する可能性があります。これらの洞察は、薬物開発においてより正確な作業を可能にし、有望な治療法をより速く見つけるために既存の実験手法を補完することができます。

AlphaFoldは一世代に一度の進歩であり、信じられない速度と精度でタンパク質の構造を予測します。この進歩は、計算手法が生物学の研究を変革し、薬物探索プロセスを加速する可能性を示しています。– Arthur D. Levinson, PhD, カリコの創設者兼CEO、元Genentechの会長兼CEO

また、タンパク質構造予測が将来のパンデミック対応の取り組みに役立つ可能性も示唆されています。これは科学コミュニティによって開発された多くのツールの一つです。今年初め、私たちはSARS-CoV-2ウイルスのいくつかのタンパク質構造を予測しました。その中には、以前は不明だったORF3aも含まれています。CASP14では、別のコロナウイルスのタンパク質、ORF8の構造を予測しました。実験家による素早い作業により、ORF3aとORF8の構造が確認されました。これらの予測は、関連する配列が非常に少ないという困難な性質を持ちながらも、実験的に決定された構造と比較して非常に高い精度を達成しました。

既知の疾患の理解を加速するだけでなく、これらの技術が現在モデルを持っていない数億ものタンパク質を探索する可能性にも興奮しています。DNAはタンパク質構造を構成するアミノ酸配列を指定するため、ゲノミクスの革命により、自然界からのタンパク質配列の読み取りが大規模に可能になりました。現在のところ、ユニバーサルタンパク質データベース(UniProt)には1億8000万以上のタンパク質配列があります。一方、配列から構造への実験的な作業が必要であるため、タンパク質データバンク(PDB)には約17万のタンパク質構造があります。未解決のタンパク質の中には、新しいエキサイティングな機能を持つものが含まれているかもしれません。望遠鏡が未知の宇宙をより深く見るのを助けるように、AlphaFoldのような技術はそれらを見つけるのに役立つかもしれません。

新たな可能性の解放

AlphaFoldは、私たちの最も重要な進歩の一つですが、科学研究においてはまだ多くの問いに答える必要があります。予測するすべての構造が完璧であるわけではありません。タンパク質がどのように複合体を形成し、DNA、RNA、または小分子とどのように相互作用するか、すべてのアミノ酸側鎖の正確な位置をどのように決定できるかなど、まだ多くのことを学ぶ必要があります。他の人々との協力により、これらの科学的な発見を新薬の開発や環境管理などにどのように最良に活用できるかについても多くのことを学ぶ必要があります。

科学の中で計算と機械学習の方法に取り組んでいる私たち全員にとって、AlphaFoldのようなシステムは、基礎的な発見を支援するツールとしてのAIの驚異的な可能性を示しています。50年前、アンフィンセンが当時の科学の範囲を超える課題を提示したように、私たちの宇宙の多くの側面はまだ未知です。今日発表された進歩により、AIが科学知識のフロンティアを拡大するための人類の最も有用なツールの一つになることに対するさらなる信頼が与えられました。私たちは、長い年月にわたる努力と発見を楽しみにしています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

3つの難易度レベルでベクトルデータベースを説明する

この記事では、ベクトルデータベースについて、直感的な理解からいくつかの例を交えて、より技術的な詳細に説明しています

AI研究

MITの研究者は、ディープラーニングと物理学を組み合わせて、動きによって損傷を受けたMRIスキャンを修正する方法を開発しました

「この課題は、ぼやけたJPEG画像以上のものです医療画像の動きのアーティファクトを修正するには、より高度なアプローチが必...

データサイエンス

将来のPythonバージョン(3.12など)に一般のユーザーに先駆けてアクセスする方法

Python 3.12などの将来のバージョンを群衆より先にインストールしてテストする方法についてのチュートリアルで、新しい機能を...

AI研究

マイクロソフトリサーチがBatteryMLを紹介:バッテリー劣化における機械学習のためのオープンソースツール

リチウムイオン電池は、高いエネルギー密度、長いサイクル寿命、低い自己放電率のおかげで、現代のエネルギー蓄積の要となっ...

機械学習

PyRCAをご紹介します:AIOpsにおけるRoot Cause Analysis(RCA)のために設計されたオープンソースのPython Machine Learningライブラリです

人工知能(AI)および機械学習の分野は、その信じられないほどの能力とほとんどすべての産業での使用例のおかげで急速に進化...

AI研究

このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています

ChipNeMoは、市販のLLMに頼らずに、ドメイン適応技術を用いた産業用チップデザインにおけるLLMの利用を探求しています。これ...