AIを用いた遺伝子発現の予測
'AIによる遺伝子発現予測'
トランスフォーマーに基づく、私たちの新しいエンフォーマーのアーキテクチャは、DNA配列が遺伝子発現にどのように影響するかを予測する能力を向上させることによって、遺伝子研究を推進します。
人間ゲノム計画が人間のゲノムのDNA配列をマッピングすることに成功したとき、国際研究コミュニティは人間の健康や発達に影響を与える遺伝子の指示をよりよく理解する機会に興奮しました。DNAは、目の色から特定の疾患や障害に対する感受性まで、あらゆることを決定する遺伝情報を持っています。人体内の遺伝子として知られるおよそ20,000のDNAセクションは、私たちの細胞で多くの重要な機能を果たすタンパク質のアミノ酸配列についての指示を含んでいます。しかし、これらの遺伝子はゲノムのわずか2%を占めています。ゲノムの30億の「文字」のうち、残りの塩基対(98%)は「非コーディング」と呼ばれ、人体内で遺伝子がどのように生成または発現されるべきかについての理解が不十分です。DeepMindでは、AIがこのような複雑な領域のより深い理解を解き放つことができると信じており、科学の進歩を加速させ、人間の健康に潜在的な利益をもたらす可能性があると考えています。
本日、Nature Methods は、「遠距離相互作用を統合したシーケンスからの効果的な遺伝子発現予測」という論文を掲載しました(bioRxivでプレプリントとして最初に共有されました)。この論文では、私たちとアルファベットの同僚であるCalicoとの共同研究により、DNA配列からの遺伝子発現予測の精度が大幅に向上するニューラルネットワークアーキテクチャであるエンフォーマーを紹介しています。遺伝子制御や疾患の因果関係のさらなる研究を推進するために、私たちはモデルとその初期の一般的な遺伝的変異の予測をこちらで公開しました。
遺伝子発現の先行研究では、一般的に畳み込みニューラルネットワークを基本的な構築要素として使用してきましたが、遠位のエンハンサが遺伝子発現に与える影響のモデリングにおける制約のため、その精度と応用範囲に問題がありました。私たちの初期の探索はBasenji2に頼っており、40,000塩基対の比較的長いDNA配列からの制御活性を予測することができました。この研究と、調節性DNA要素がより遠い距離で発現に影響を与えることが知られているという知識から、長い配列を捉えるための基本的なアーキテクチャの変更が必要であると考えました。
私たちは自然言語処理で一般的なトランスフォーマーに基づく新しいモデルを開発し、より大きなDNAコンテキストを統合するためのセルフアテンションメカニズムを利用しました。トランスフォーマーは長いテキストパッセージを見るのに最適なので、私たちはそれらを遥かに拡張されたDNA配列を「読む」ために適応させました。前の方法の長さの5倍以上(つまり、200,000塩基対)の距離で相互作用を考慮するように効果的にシーケンスを処理することで、私たちのアーキテクチャはDNA配列内の重要な調節要素であるエンハンサがより遠くから遺伝子発現に与える影響をモデル化することができます。
より正確な予測を得るために、エンフォーマーがDNA配列をどの部分に注目しているかを示すために貢献スコアを使用しました。生物学的な直感に合致するように、遺伝子から5万塩基対以上離れた場所に位置するエンハンサにもモデルが注目することが観察されました。どのエンハンサがどの遺伝子を制御しているかを予測することは、ゲノミクスの主要な未解決問題の1つであり、このタスクに特化した既存の手法(実験データを入力として使用)と比較して、エンフォーマーの貢献スコアが同等の結果を示したことをうれしく思っています。エンフォーマーはまた、DNAの2つの独立した制御領域を分離する絶縁体要素についても学習しました。
生物のDNAを完全に研究することができるようになりましたが、ゲノムを理解するためには複雑な実験が必要です。膨大な実験の努力にもかかわらず、DNAが遺伝子の発現を制御するメカニズムのほとんどは未解明のままです。AIを用いることで、ゲノム内のパターンを見つけるための新たな可能性を探求し、配列変更に関するメカニスティックな仮説を提供することができます。スペルチェッカーのように、EnformerはDNA配列の語彙を一部理解しており、遺伝子の発現に影響を与える可能性のある編集を強調することができます。
この新しいモデルの主な応用は、DNAの文字、つまり遺伝子変異が遺伝子の発現にどのように影響するかを予測することです。従来のモデルと比較して、Enformerは遺伝子発現に対する変異の効果を予測する能力が格段に向上しており、自然遺伝子変異や重要な調節配列を変える合成変異の場合でも同様です。この特性は、ゲノムワイド関連研究で得られる疾患関連変異の数が増えている解釈に役立ちます。複雑な遺伝病に関連する変異は、遺伝子の発現を変えることで疾患を引き起こす可能性が高いため、主にゲノムの非コーディング領域に存在します。しかし、変異間に固有の相関があるため、これらの疾患関連変異の多くは原因ではなく見かけの相関しか持ちません。計算ツールは真の関連性を偽の陽性から区別するのに役立ちます。
私たちは人間のゲノムに残された未解決のパズルを解決するにはまだ遠いですが、Enformerはゲノム配列の複雑さを理解するための一歩です。細胞の基本的なプロセスがどのように機能し、それがDNA配列にエンコードされ、ゲノミクスと疾患の理解を進めるための新しいシステムを構築する方法に興味がある場合は、採用をお待ちしています。また、他の研究者や組織との協力を拡大し、ゲノミクスの中心にある未解決の問題を解決するための計算モデルの探求に熱心な方との連携を楽しみにしています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles