AIを用いた遺伝子発現の予測

'AIによる遺伝子発現予測'

トランスフォーマーに基づく、私たちの新しいエンフォーマーのアーキテクチャは、DNA配列が遺伝子発現にどのように影響するかを予測する能力を向上させることによって、遺伝子研究を推進します。

人間ゲノム計画が人間のゲノムのDNA配列をマッピングすることに成功したとき、国際研究コミュニティは人間の健康や発達に影響を与える遺伝子の指示をよりよく理解する機会に興奮しました。DNAは、目の色から特定の疾患や障害に対する感受性まで、あらゆることを決定する遺伝情報を持っています。人体内の遺伝子として知られるおよそ20,000のDNAセクションは、私たちの細胞で多くの重要な機能を果たすタンパク質のアミノ酸配列についての指示を含んでいます。しかし、これらの遺伝子はゲノムのわずか2%を占めています。ゲノムの30億の「文字」のうち、残りの塩基対(98%)は「非コーディング」と呼ばれ、人体内で遺伝子がどのように生成または発現されるべきかについての理解が不十分です。DeepMindでは、AIがこのような複雑な領域のより深い理解を解き放つことができると信じており、科学の進歩を加速させ、人間の健康に潜在的な利益をもたらす可能性があると考えています。

本日、Nature Methods は、「遠距離相互作用を統合したシーケンスからの効果的な遺伝子発現予測」という論文を掲載しました(bioRxivでプレプリントとして最初に共有されました)。この論文では、私たちとアルファベットの同僚であるCalicoとの共同研究により、DNA配列からの遺伝子発現予測の精度が大幅に向上するニューラルネットワークアーキテクチャであるエンフォーマーを紹介しています。遺伝子制御や疾患の因果関係のさらなる研究を推進するために、私たちはモデルとその初期の一般的な遺伝的変異の予測をこちらで公開しました。

遺伝子発現の先行研究では、一般的に畳み込みニューラルネットワークを基本的な構築要素として使用してきましたが、遠位のエンハンサが遺伝子発現に与える影響のモデリングにおける制約のため、その精度と応用範囲に問題がありました。私たちの初期の探索はBasenji2に頼っており、40,000塩基対の比較的長いDNA配列からの制御活性を予測することができました。この研究と、調節性DNA要素がより遠い距離で発現に影響を与えることが知られているという知識から、長い配列を捉えるための基本的なアーキテクチャの変更が必要であると考えました。

私たちは自然言語処理で一般的なトランスフォーマーに基づく新しいモデルを開発し、より大きなDNAコンテキストを統合するためのセルフアテンションメカニズムを利用しました。トランスフォーマーは長いテキストパッセージを見るのに最適なので、私たちはそれらを遥かに拡張されたDNA配列を「読む」ために適応させました。前の方法の長さの5倍以上(つまり、200,000塩基対)の距離で相互作用を考慮するように効果的にシーケンスを処理することで、私たちのアーキテクチャはDNA配列内の重要な調節要素であるエンハンサがより遠くから遺伝子発現に与える影響をモデル化することができます。

エンフォーマーは、入力DNAの200,000塩基対から遺伝子発現を含む機能的なゲノムデータを予測するために訓練されています。上の例は、5,000以上の可能なゲノムトラックのうち3つを特集しています。トランスフォーマーモジュールを使用することで、全体のシーケンスをアテンションを使って情報を収集することができるため、以前のモデルと比べてはるかに長い入力シーケンスを効果的に考慮することができます。

より正確な予測を得るために、エンフォーマーがDNA配列をどの部分に注目しているかを示すために貢献スコアを使用しました。生物学的な直感に合致するように、遺伝子から5万塩基対以上離れた場所に位置するエンハンサにもモデルが注目することが観察されました。どのエンハンサがどの遺伝子を制御しているかを予測することは、ゲノミクスの主要な未解決問題の1つであり、このタスクに特化した既存の手法(実験データを入力として使用)と比較して、エンフォーマーの貢献スコアが同等の結果を示したことをうれしく思っています。エンフォーマーはまた、DNAの2つの独立した制御領域を分離する絶縁体要素についても学習しました。

エンフォーマーは、より広範な感受野によって、遺伝子から20,000塩基対以上離れた距離でも、関連する調節性DNA領域(青で示される)であるエンハンサ(灰色のボックス)に注意を払います。

生物のDNAを完全に研究することができるようになりましたが、ゲノムを理解するためには複雑な実験が必要です。膨大な実験の努力にもかかわらず、DNAが遺伝子の発現を制御するメカニズムのほとんどは未解明のままです。AIを用いることで、ゲノム内のパターンを見つけるための新たな可能性を探求し、配列変更に関するメカニスティックな仮説を提供することができます。スペルチェッカーのように、EnformerはDNA配列の語彙を一部理解しており、遺伝子の発現に影響を与える可能性のある編集を強調することができます。

この新しいモデルの主な応用は、DNAの文字、つまり遺伝子変異が遺伝子の発現にどのように影響するかを予測することです。従来のモデルと比較して、Enformerは遺伝子発現に対する変異の効果を予測する能力が格段に向上しており、自然遺伝子変異や重要な調節配列を変える合成変異の場合でも同様です。この特性は、ゲノムワイド関連研究で得られる疾患関連変異の数が増えている解釈に役立ちます。複雑な遺伝病に関連する変異は、遺伝子の発現を変えることで疾患を引き起こす可能性が高いため、主にゲノムの非コーディング領域に存在します。しかし、変異間に固有の相関があるため、これらの疾患関連変異の多くは原因ではなく見かけの相関しか持ちません。計算ツールは真の関連性を偽の陽性から区別するのに役立ちます。

<img alt="免疫応答遺伝子NLRC5に存在する変異体rs11644125は、単球とリンパ球の白血球レベルを低下させる関連があります。変異体の周囲のすべての位置を系統的に変異させ、NLRC5遺伝子発現への変化を予測すると(文字の高さとして表示されます)、変異体はNLRC5の全体的な発現を低下させ、SP1という転写因子の既知の結合モチーフを変調します。したがって、Enformerの予測によれば、この変異が白血球数への影響の生物学的なメカニズムは、SP1結合の乱れによる低下したNLRC5遺伝子発現です。

私たちは人間のゲノムに残された未解決のパズルを解決するにはまだ遠いですが、Enformerはゲノム配列の複雑さを理解するための一歩です。細胞の基本的なプロセスがどのように機能し、それがDNA配列にエンコードされ、ゲノミクスと疾患の理解を進めるための新しいシステムを構築する方法に興味がある場合は、採用をお待ちしています。また、他の研究者や組織との協力を拡大し、ゲノミクスの中心にある未解決の問題を解決するための計算モデルの探求に熱心な方との連携を楽しみにしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...

データサイエンス

最も困難な部分:分類の目標を定義すること

ターゲット変数は、教師あり機械学習モデルで予測しようとしている変数またはメトリックですこれは、依存変数、応答変数、'y'...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

AI研究

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、...

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...

AIテクノロジー

「Githubの使い方?ステップバイステップガイド」というテキスト

GitHubに登録するには、以下の6つの手順を守ってください ステップ1: GitHubにサインアップする ウェブサイトを訪問し、「サ...