AIを用いた遺伝子発現の予測

'AIによる遺伝子発現予測'

トランスフォーマーに基づく、私たちの新しいエンフォーマーのアーキテクチャは、DNA配列が遺伝子発現にどのように影響するかを予測する能力を向上させることによって、遺伝子研究を推進します。

人間ゲノム計画が人間のゲノムのDNA配列をマッピングすることに成功したとき、国際研究コミュニティは人間の健康や発達に影響を与える遺伝子の指示をよりよく理解する機会に興奮しました。DNAは、目の色から特定の疾患や障害に対する感受性まで、あらゆることを決定する遺伝情報を持っています。人体内の遺伝子として知られるおよそ20,000のDNAセクションは、私たちの細胞で多くの重要な機能を果たすタンパク質のアミノ酸配列についての指示を含んでいます。しかし、これらの遺伝子はゲノムのわずか2%を占めています。ゲノムの30億の「文字」のうち、残りの塩基対(98%)は「非コーディング」と呼ばれ、人体内で遺伝子がどのように生成または発現されるべきかについての理解が不十分です。DeepMindでは、AIがこのような複雑な領域のより深い理解を解き放つことができると信じており、科学の進歩を加速させ、人間の健康に潜在的な利益をもたらす可能性があると考えています。

本日、Nature Methods は、「遠距離相互作用を統合したシーケンスからの効果的な遺伝子発現予測」という論文を掲載しました(bioRxivでプレプリントとして最初に共有されました)。この論文では、私たちとアルファベットの同僚であるCalicoとの共同研究により、DNA配列からの遺伝子発現予測の精度が大幅に向上するニューラルネットワークアーキテクチャであるエンフォーマーを紹介しています。遺伝子制御や疾患の因果関係のさらなる研究を推進するために、私たちはモデルとその初期の一般的な遺伝的変異の予測をこちらで公開しました。

遺伝子発現の先行研究では、一般的に畳み込みニューラルネットワークを基本的な構築要素として使用してきましたが、遠位のエンハンサが遺伝子発現に与える影響のモデリングにおける制約のため、その精度と応用範囲に問題がありました。私たちの初期の探索はBasenji2に頼っており、40,000塩基対の比較的長いDNA配列からの制御活性を予測することができました。この研究と、調節性DNA要素がより遠い距離で発現に影響を与えることが知られているという知識から、長い配列を捉えるための基本的なアーキテクチャの変更が必要であると考えました。

私たちは自然言語処理で一般的なトランスフォーマーに基づく新しいモデルを開発し、より大きなDNAコンテキストを統合するためのセルフアテンションメカニズムを利用しました。トランスフォーマーは長いテキストパッセージを見るのに最適なので、私たちはそれらを遥かに拡張されたDNA配列を「読む」ために適応させました。前の方法の長さの5倍以上(つまり、200,000塩基対)の距離で相互作用を考慮するように効果的にシーケンスを処理することで、私たちのアーキテクチャはDNA配列内の重要な調節要素であるエンハンサがより遠くから遺伝子発現に与える影響をモデル化することができます。

エンフォーマーは、入力DNAの200,000塩基対から遺伝子発現を含む機能的なゲノムデータを予測するために訓練されています。上の例は、5,000以上の可能なゲノムトラックのうち3つを特集しています。トランスフォーマーモジュールを使用することで、全体のシーケンスをアテンションを使って情報を収集することができるため、以前のモデルと比べてはるかに長い入力シーケンスを効果的に考慮することができます。

より正確な予測を得るために、エンフォーマーがDNA配列をどの部分に注目しているかを示すために貢献スコアを使用しました。生物学的な直感に合致するように、遺伝子から5万塩基対以上離れた場所に位置するエンハンサにもモデルが注目することが観察されました。どのエンハンサがどの遺伝子を制御しているかを予測することは、ゲノミクスの主要な未解決問題の1つであり、このタスクに特化した既存の手法(実験データを入力として使用)と比較して、エンフォーマーの貢献スコアが同等の結果を示したことをうれしく思っています。エンフォーマーはまた、DNAの2つの独立した制御領域を分離する絶縁体要素についても学習しました。

エンフォーマーは、より広範な感受野によって、遺伝子から20,000塩基対以上離れた距離でも、関連する調節性DNA領域(青で示される)であるエンハンサ(灰色のボックス)に注意を払います。

生物のDNAを完全に研究することができるようになりましたが、ゲノムを理解するためには複雑な実験が必要です。膨大な実験の努力にもかかわらず、DNAが遺伝子の発現を制御するメカニズムのほとんどは未解明のままです。AIを用いることで、ゲノム内のパターンを見つけるための新たな可能性を探求し、配列変更に関するメカニスティックな仮説を提供することができます。スペルチェッカーのように、EnformerはDNA配列の語彙を一部理解しており、遺伝子の発現に影響を与える可能性のある編集を強調することができます。

この新しいモデルの主な応用は、DNAの文字、つまり遺伝子変異が遺伝子の発現にどのように影響するかを予測することです。従来のモデルと比較して、Enformerは遺伝子発現に対する変異の効果を予測する能力が格段に向上しており、自然遺伝子変異や重要な調節配列を変える合成変異の場合でも同様です。この特性は、ゲノムワイド関連研究で得られる疾患関連変異の数が増えている解釈に役立ちます。複雑な遺伝病に関連する変異は、遺伝子の発現を変えることで疾患を引き起こす可能性が高いため、主にゲノムの非コーディング領域に存在します。しかし、変異間に固有の相関があるため、これらの疾患関連変異の多くは原因ではなく見かけの相関しか持ちません。計算ツールは真の関連性を偽の陽性から区別するのに役立ちます。

<img alt="免疫応答遺伝子NLRC5に存在する変異体rs11644125は、単球とリンパ球の白血球レベルを低下させる関連があります。変異体の周囲のすべての位置を系統的に変異させ、NLRC5遺伝子発現への変化を予測すると(文字の高さとして表示されます)、変異体はNLRC5の全体的な発現を低下させ、SP1という転写因子の既知の結合モチーフを変調します。したがって、Enformerの予測によれば、この変異が白血球数への影響の生物学的なメカニズムは、SP1結合の乱れによる低下したNLRC5遺伝子発現です。

私たちは人間のゲノムに残された未解決のパズルを解決するにはまだ遠いですが、Enformerはゲノム配列の複雑さを理解するための一歩です。細胞の基本的なプロセスがどのように機能し、それがDNA配列にエンコードされ、ゲノミクスと疾患の理解を進めるための新しいシステムを構築する方法に興味がある場合は、採用をお待ちしています。また、他の研究者や組織との協力を拡大し、ゲノミクスの中心にある未解決の問題を解決するための計算モデルの探求に熱心な方との連携を楽しみにしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「タンパク質設計の革命:ディープラーニングの改良により成功率が10倍に向上したこのAI研究」

タンパク質はほぼすべての疾患を統治するポリマー構造です。主な問題は、どのタンパク質がそれに対応するタンパク質ポリマー...

機械学習

「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」

DeepMindは、YouTubeとの共同作業で、YouTube Shortsビデオの検索性を向上させるために設計された最先端のAIモデル「Flamingo...

機械学習

「AIの進化と生成AIへの道のりとその仕組み」

この記事では、AI/MLの基礎、その使用方法、生成AIの進化、Prompt Engineering、およびLangChainについて説明しています

機械学習

PyTorchEdgeはExecuTorchを発表しました:モバイルおよびエッジデバイス向けのオンデバイスでの推論をエンパワーメント

画期的な取り組みとして、PyTorch Edgeは新しいコンポーネント、ExecuTorchを導入しました。これはモバイルおよびエッジデバ...

機械学習

MPT-30B:モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

MosaicMLのLLMにおける画期的な進歩について、MPTシリーズで学びましょうMPT-30Bおよびその微調整された派生モデル、MPT-30B-...

AIニュース

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載...