ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

ジェン AIがCOVID-19 バリアントの特徴を予測する方法

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺伝子配列を生成する能力を示しました。

GenSLMsと呼ばれるこのモデルは、昨年、高性能コンピューティングを利用したCOVID-19の研究でGordon Bell特別賞を受賞したもので、DNAとRNAの構成要素である核酸配列のデータセットで訓練されました。これは、Argonne National Laboratory、NVIDIA、シカゴ大学、その他の学術機関や企業の研究者によって開発されました。

研究者たちは、GenSLMsによって生成された核酸配列を調べると、AIによって生成された配列の特定の特徴が今年主流であるErisとPirolaの変異体と非常によく一致することを発見しました。ただし、AIはパンデミックの最初の年に限定されたCOVID-19ウイルスのゲノムの訓練しか受けていませんでした。

アルゴンヌ国立研究所の計算生物学者でプロジェクトのリードリサーチャーであるアールヴィンド・ラマナタンは、「私たちのモデルの生成過程は非常に素朴であり、新たなCOVID変異体がどのように見えるべきかに関する具体的な情報や制約を持っていません」と述べました。「AIが訓練中にAlphaとBeta変異体しか見ていないにもかかわらず、最近のCOVID変異体に存在する遺伝子変異の種類を予測できる能力は、その能力の強力な検証です」と述べています。

GenSLMsは独自の配列を生成するだけでなく、異なるCOVIDゲノム配列を分類してクラスタリングすることもできます。NVIDIAの加速ソフトウェアのハブであるNGCにまもなく公開されるデモでは、GenSLMsがCOVIDウイルスゲノム内のさまざまなタンパク質の進化パターンの分析を行う視覚化が可能です。

 

行間を読み解き、進化パターンを明らかにする

GenSLMsの主な特徴の1つは、長い核酸配列(DNAではA、T、G、Cの文字列、RNAではA、U、G、Cの文字列)を、英語のテキストで訓練されたLLMが文を解釈するのと同じ方法で解釈できる能力です。この能力により、モデルはゲノムの異なる領域の関係を理解することができます。コロナウイルスでは、これは約30,000個の核酸から構成されています。

デモでは、ユーザーは8つの異なるCOVID変異体から選択し、AIモデルがウイルスゲノムのさまざまなタンパク質の突然変異をどのように追跡するかを理解することができます。この視覚化は、ウイルスタンパク質間の進化的な結合を示し、特定の変異が特定の変異体に見られる可能性のあるゲノムのスニペットを強調表示します。

ラマナタンは、「ゲノムの異なる部分が共進化している方法を理解することは、ウイルスが新たな脆弱性や耐性の形態を発展させる手がかりを与えてくれます」と述べています。「モデルが特定の変異が特に強い変異体においてどのように理解しているかを見ることは、特定の株が人の免疫系を逃れる方法を決定するなど、後続のタスクにおいて科学者に役立つかもしれません」と述べています。

 

GenSLMsは1億1千万以上の原核生物のゲノム配列で訓練され、バクテリアおよびウイルスのバイオインフォマティクスリソースセンターのオープンソースデータを使用して約150万のCOVIDウイルスの配列を用いて微調整されました。将来的には、このモデルは他のウイルスやバクテリアのゲノムに微調整されることで、新たな研究アプリケーションが可能になるかもしれません。

研究者たちは、NVIDIA A100 Tensor Core GPUを搭載したスーパーコンピューター(ArgonneのPolaris、米国エネルギー省のPerlmutter、およびNVIDIAのSelene)を使用して、モデルを訓練しました。

GenSLMs研究チームのGordon Bell特別賞は、昨年のSC22スーパーコンピューティング会議で授与されました。今週のSC23(デンバー)では、NVIDIAが加速コンピューティング分野での画期的な新しい取り組みを共有しています。以下からフルスケジュールをご覧いただき、NVIDIAの特別講演のリプレイをご覧ください。

NVIDIA Researchは、AI、コンピュータグラフィックス、コンピュータビジョン、自動運転車およびロボティクスなどのトピックに特化した数百人の科学者とエンジニアで構成されています。詳細については、NVIDIA Researchをご覧ください。また、NVIDIAヘルスケアニュースの購読もおすすめです。

メイン画像は、Argonne National LaboratoryのBharat Kale提供です。

この研究は、米国エネルギー省科学事務局および国立核安全保障局の協力による超大規模コンピューティングプロジェクト(17-SC-20-SC)によって支援されました。この研究は、COVID-19への対応を目的とした米国エネルギー省国立研究所の連邦バイオテクノロジーラボラトリウム(National Virtual Biotechnology Laboratory)による資金提供を含む、Coronavirus CARES法に基づく資金援助で支えられています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI研究

「ケンブリッジの研究者たちは、機械学習システムに不確実性を組み込むことを開発しています」

不確かな人間の洞察力の世界で、不確実性を受け入れることは、機械と人間がより効果的かつ信頼性の高い方法で協力するのに役...

AIニュース

A.I.はいつか医療の奇跡を起こすかもしれませんしかし今のところ、役立つのは書類作業です

医師たちは、健康管理における生成的AIの最適な活用法は、彼らが毎日数時間を費やしている文書作業の負担を軽減することだと...

機械学習

Amazon SageMakerノートブックのジョブをスケジュールし、APIを使用してマルチステップノートブックのワークフローを管理します

Amazon SageMaker Studioは、データサイエンティストが対話的に構築、トレーニング、展開するための完全に管理されたソリュー...

機械学習

「コスト効率の高い高性能 AI 推論用の Amazon EC2 DL2q インスタンスが一般提供開始されました」

Qualcomm AIのA.K Royさんによるゲスト記事ですAmazon Elastic Compute Cloud(Amazon EC2)DL2qインスタンスは、Qualcomm AI...

コンピュータサイエンス

「そこにはある特定の危険が潜んでいる」 最初のチャットボットの発明者がAIに反対するようになった経緯

コンピュータ科学者のJoseph Weizenbaumは、人工知能の黎明期に存在していましたが、彼はまた、コンピュータを人間と混同して...