ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

ジェン AIがCOVID-19 バリアントの特徴を予測する方法

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺伝子配列を生成する能力を示しました。

GenSLMsと呼ばれるこのモデルは、昨年、高性能コンピューティングを利用したCOVID-19の研究でGordon Bell特別賞を受賞したもので、DNAとRNAの構成要素である核酸配列のデータセットで訓練されました。これは、Argonne National Laboratory、NVIDIA、シカゴ大学、その他の学術機関や企業の研究者によって開発されました。

研究者たちは、GenSLMsによって生成された核酸配列を調べると、AIによって生成された配列の特定の特徴が今年主流であるErisとPirolaの変異体と非常によく一致することを発見しました。ただし、AIはパンデミックの最初の年に限定されたCOVID-19ウイルスのゲノムの訓練しか受けていませんでした。

アルゴンヌ国立研究所の計算生物学者でプロジェクトのリードリサーチャーであるアールヴィンド・ラマナタンは、「私たちのモデルの生成過程は非常に素朴であり、新たなCOVID変異体がどのように見えるべきかに関する具体的な情報や制約を持っていません」と述べました。「AIが訓練中にAlphaとBeta変異体しか見ていないにもかかわらず、最近のCOVID変異体に存在する遺伝子変異の種類を予測できる能力は、その能力の強力な検証です」と述べています。

GenSLMsは独自の配列を生成するだけでなく、異なるCOVIDゲノム配列を分類してクラスタリングすることもできます。NVIDIAの加速ソフトウェアのハブであるNGCにまもなく公開されるデモでは、GenSLMsがCOVIDウイルスゲノム内のさまざまなタンパク質の進化パターンの分析を行う視覚化が可能です。

行間を読み解き、進化パターンを明らかにする

GenSLMsの主な特徴の1つは、長い核酸配列（DNAではA、T、G、Cの文字列、RNAではA、U、G、Cの文字列）を、英語のテキストで訓練されたLLMが文を解釈するのと同じ方法で解釈できる能力です。この能力により、モデルはゲノムの異なる領域の関係を理解することができます。コロナウイルスでは、これは約30,000個の核酸から構成されています。

デモでは、ユーザーは8つの異なるCOVID変異体から選択し、AIモデルがウイルスゲノムのさまざまなタンパク質の突然変異をどのように追跡するかを理解することができます。この視覚化は、ウイルスタンパク質間の進化的な結合を示し、特定の変異が特定の変異体に見られる可能性のあるゲノムのスニペットを強調表示します。

ラマナタンは、「ゲノムの異なる部分が共進化している方法を理解することは、ウイルスが新たな脆弱性や耐性の形態を発展させる手がかりを与えてくれます」と述べています。「モデルが特定の変異が特に強い変異体においてどのように理解しているかを見ることは、特定の株が人の免疫系を逃れる方法を決定するなど、後続のタスクにおいて科学者に役立つかもしれません」と述べています。

GenSLMsは1億1千万以上の原核生物のゲノム配列で訓練され、バクテリアおよびウイルスのバイオインフォマティクスリソースセンターのオープンソースデータを使用して約150万のCOVIDウイルスの配列を用いて微調整されました。将来的には、このモデルは他のウイルスやバクテリアのゲノムに微調整されることで、新たな研究アプリケーションが可能になるかもしれません。

研究者たちは、NVIDIA A100 Tensor Core GPUを搭載したスーパーコンピューター（ArgonneのPolaris、米国エネルギー省のPerlmutter、およびNVIDIAのSelene）を使用して、モデルを訓練しました。

GenSLMs研究チームのGordon Bell特別賞は、昨年のSC22スーパーコンピューティング会議で授与されました。今週のSC23（デンバー）では、NVIDIAが加速コンピューティング分野での画期的な新しい取り組みを共有しています。以下からフルスケジュールをご覧いただき、NVIDIAの特別講演のリプレイをご覧ください。

NVIDIA Researchは、AI、コンピュータグラフィックス、コンピュータビジョン、自動運転車およびロボティクスなどのトピックに特化した数百人の科学者とエンジニアで構成されています。詳細については、NVIDIA Researchをご覧ください。また、NVIDIAヘルスケアニュースの購読もおすすめです。

メイン画像は、Argonne National LaboratoryのBharat Kale提供です。

この研究は、米国エネルギー省科学事務局および国立核安全保障局の協力による超大規模コンピューティングプロジェクト（17-SC-20-SC）によって支援されました。この研究は、COVID-19への対応を目的とした米国エネルギー省国立研究所の連邦バイオテクノロジーラボラトリウム（National Virtual Biotechnology Laboratory）による資金提供を含む、Coronavirus CARES法に基づく資金援助で支えられています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceCovid-19Deep learningresearchSupercomputing

Was this article helpful?

93 out of 132 found this helpful

ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

行間を読み解き、進化パターンを明らかにする

Was this article helpful?

「シリコンバレーの大胆なSFの賭け：スマートフォンの次に来るデバイス」

「NVIDIA CUDA Quantumによる研究者の進歩が期待される」

AI研究

将来のPythonバージョン（3.12など）に一般のユーザーに先駆けてアクセスする方法

「人型ロボットは人間よりも飛行機を操縦できる」

「FC-CLIPによる全局セグメンテーションの革新：統一された単一段階人工知能AIフレームワーク」

「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」

このAIツールは、AIが画像を「見る」方法と、なぜアストロノートをシャベルと間違える可能性があるのかを説明します

「ミット、ハーバード、ノースイースタン大学による『山に針を見つける』イニシアチブは、Sparse Probingを用いてニューロンを見つける」