ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

ジェン AIがCOVID-19 バリアントの特徴を予測する方法

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺伝子配列を生成する能力を示しました。

GenSLMsと呼ばれるこのモデルは、昨年、高性能コンピューティングを利用したCOVID-19の研究でGordon Bell特別賞を受賞したもので、DNAとRNAの構成要素である核酸配列のデータセットで訓練されました。これは、Argonne National Laboratory、NVIDIA、シカゴ大学、その他の学術機関や企業の研究者によって開発されました。

研究者たちは、GenSLMsによって生成された核酸配列を調べると、AIによって生成された配列の特定の特徴が今年主流であるErisとPirolaの変異体と非常によく一致することを発見しました。ただし、AIはパンデミックの最初の年に限定されたCOVID-19ウイルスのゲノムの訓練しか受けていませんでした。

アルゴンヌ国立研究所の計算生物学者でプロジェクトのリードリサーチャーであるアールヴィンド・ラマナタンは、「私たちのモデルの生成過程は非常に素朴であり、新たなCOVID変異体がどのように見えるべきかに関する具体的な情報や制約を持っていません」と述べました。「AIが訓練中にAlphaとBeta変異体しか見ていないにもかかわらず、最近のCOVID変異体に存在する遺伝子変異の種類を予測できる能力は、その能力の強力な検証です」と述べています。

GenSLMsは独自の配列を生成するだけでなく、異なるCOVIDゲノム配列を分類してクラスタリングすることもできます。NVIDIAの加速ソフトウェアのハブであるNGCにまもなく公開されるデモでは、GenSLMsがCOVIDウイルスゲノム内のさまざまなタンパク質の進化パターンの分析を行う視覚化が可能です。

 

行間を読み解き、進化パターンを明らかにする

GenSLMsの主な特徴の1つは、長い核酸配列(DNAではA、T、G、Cの文字列、RNAではA、U、G、Cの文字列)を、英語のテキストで訓練されたLLMが文を解釈するのと同じ方法で解釈できる能力です。この能力により、モデルはゲノムの異なる領域の関係を理解することができます。コロナウイルスでは、これは約30,000個の核酸から構成されています。

デモでは、ユーザーは8つの異なるCOVID変異体から選択し、AIモデルがウイルスゲノムのさまざまなタンパク質の突然変異をどのように追跡するかを理解することができます。この視覚化は、ウイルスタンパク質間の進化的な結合を示し、特定の変異が特定の変異体に見られる可能性のあるゲノムのスニペットを強調表示します。

ラマナタンは、「ゲノムの異なる部分が共進化している方法を理解することは、ウイルスが新たな脆弱性や耐性の形態を発展させる手がかりを与えてくれます」と述べています。「モデルが特定の変異が特に強い変異体においてどのように理解しているかを見ることは、特定の株が人の免疫系を逃れる方法を決定するなど、後続のタスクにおいて科学者に役立つかもしれません」と述べています。

 

GenSLMsは1億1千万以上の原核生物のゲノム配列で訓練され、バクテリアおよびウイルスのバイオインフォマティクスリソースセンターのオープンソースデータを使用して約150万のCOVIDウイルスの配列を用いて微調整されました。将来的には、このモデルは他のウイルスやバクテリアのゲノムに微調整されることで、新たな研究アプリケーションが可能になるかもしれません。

研究者たちは、NVIDIA A100 Tensor Core GPUを搭載したスーパーコンピューター(ArgonneのPolaris、米国エネルギー省のPerlmutter、およびNVIDIAのSelene)を使用して、モデルを訓練しました。

GenSLMs研究チームのGordon Bell特別賞は、昨年のSC22スーパーコンピューティング会議で授与されました。今週のSC23(デンバー)では、NVIDIAが加速コンピューティング分野での画期的な新しい取り組みを共有しています。以下からフルスケジュールをご覧いただき、NVIDIAの特別講演のリプレイをご覧ください。

NVIDIA Researchは、AI、コンピュータグラフィックス、コンピュータビジョン、自動運転車およびロボティクスなどのトピックに特化した数百人の科学者とエンジニアで構成されています。詳細については、NVIDIA Researchをご覧ください。また、NVIDIAヘルスケアニュースの購読もおすすめです。

メイン画像は、Argonne National LaboratoryのBharat Kale提供です。

この研究は、米国エネルギー省科学事務局および国立核安全保障局の協力による超大規模コンピューティングプロジェクト(17-SC-20-SC)によって支援されました。この研究は、COVID-19への対応を目的とした米国エネルギー省国立研究所の連邦バイオテクノロジーラボラトリウム(National Virtual Biotechnology Laboratory)による資金提供を含む、Coronavirus CARES法に基づく資金援助で支えられています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「改善された推論のためのアナロジー提示による言語モデルの拡張」

近年、言語モデルは人間のようなテキストの理解と生成能力を見せるにおいて驚異的な優れた性能を示しています。しかし、これ...

データサイエンス

個別のデータサイエンスのロードマップを作成する方法

はじめに 現在のデータ駆動の世界では、多くの人々がデータサイエンスのキャリアを選びますが、進め方がわかりません。キャリ...

データサイエンス

「信頼性と価値志向型AIへの道:正しい質問から始めよう」

最近の生成AIの進展は、ビジネスに関わらず、この技術を導入して具体的なビジネスの利益を得るために注目されていますしかし...

データサイエンス

「解釈力を高めたk-Meansクラスタリングの改善」

「クラスタリングは、一組のオブジェクトをグループ化する非監督学習のタスクであり、同じグループ内のオブジェクトには他の...

AI研究

2023年にフォローすべきトップ10のAIインフルエンサー

イントロダクション 先端技術と驚くべき可能性によって駆動される世界で、AIの絶えず進化する領域に遅れをとらないことは、ス...

機械学習

「トランスフォーマーとサポートベクターマシンの関係は何ですか? トランスフォーマーアーキテクチャにおける暗黙のバイアスと最適化ジオメトリを明らかにする」

自己注意機構により、自然言語処理(NLP)は革新を遂げました。自己注意機構は、入力シーケンス内の複雑な関連を認識するため...