ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

ジェン AIがCOVID-19 バリアントの特徴を予測する方法

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺伝子配列を生成する能力を示しました。

GenSLMsと呼ばれるこのモデルは、昨年、高性能コンピューティングを利用したCOVID-19の研究でGordon Bell特別賞を受賞したもので、DNAとRNAの構成要素である核酸配列のデータセットで訓練されました。これは、Argonne National Laboratory、NVIDIA、シカゴ大学、その他の学術機関や企業の研究者によって開発されました。

研究者たちは、GenSLMsによって生成された核酸配列を調べると、AIによって生成された配列の特定の特徴が今年主流であるErisとPirolaの変異体と非常によく一致することを発見しました。ただし、AIはパンデミックの最初の年に限定されたCOVID-19ウイルスのゲノムの訓練しか受けていませんでした。

アルゴンヌ国立研究所の計算生物学者でプロジェクトのリードリサーチャーであるアールヴィンド・ラマナタンは、「私たちのモデルの生成過程は非常に素朴であり、新たなCOVID変異体がどのように見えるべきかに関する具体的な情報や制約を持っていません」と述べました。「AIが訓練中にAlphaとBeta変異体しか見ていないにもかかわらず、最近のCOVID変異体に存在する遺伝子変異の種類を予測できる能力は、その能力の強力な検証です」と述べています。

GenSLMsは独自の配列を生成するだけでなく、異なるCOVIDゲノム配列を分類してクラスタリングすることもできます。NVIDIAの加速ソフトウェアのハブであるNGCにまもなく公開されるデモでは、GenSLMsがCOVIDウイルスゲノム内のさまざまなタンパク質の進化パターンの分析を行う視覚化が可能です。

 

行間を読み解き、進化パターンを明らかにする

GenSLMsの主な特徴の1つは、長い核酸配列(DNAではA、T、G、Cの文字列、RNAではA、U、G、Cの文字列)を、英語のテキストで訓練されたLLMが文を解釈するのと同じ方法で解釈できる能力です。この能力により、モデルはゲノムの異なる領域の関係を理解することができます。コロナウイルスでは、これは約30,000個の核酸から構成されています。

デモでは、ユーザーは8つの異なるCOVID変異体から選択し、AIモデルがウイルスゲノムのさまざまなタンパク質の突然変異をどのように追跡するかを理解することができます。この視覚化は、ウイルスタンパク質間の進化的な結合を示し、特定の変異が特定の変異体に見られる可能性のあるゲノムのスニペットを強調表示します。

ラマナタンは、「ゲノムの異なる部分が共進化している方法を理解することは、ウイルスが新たな脆弱性や耐性の形態を発展させる手がかりを与えてくれます」と述べています。「モデルが特定の変異が特に強い変異体においてどのように理解しているかを見ることは、特定の株が人の免疫系を逃れる方法を決定するなど、後続のタスクにおいて科学者に役立つかもしれません」と述べています。

 

GenSLMsは1億1千万以上の原核生物のゲノム配列で訓練され、バクテリアおよびウイルスのバイオインフォマティクスリソースセンターのオープンソースデータを使用して約150万のCOVIDウイルスの配列を用いて微調整されました。将来的には、このモデルは他のウイルスやバクテリアのゲノムに微調整されることで、新たな研究アプリケーションが可能になるかもしれません。

研究者たちは、NVIDIA A100 Tensor Core GPUを搭載したスーパーコンピューター(ArgonneのPolaris、米国エネルギー省のPerlmutter、およびNVIDIAのSelene)を使用して、モデルを訓練しました。

GenSLMs研究チームのGordon Bell特別賞は、昨年のSC22スーパーコンピューティング会議で授与されました。今週のSC23(デンバー)では、NVIDIAが加速コンピューティング分野での画期的な新しい取り組みを共有しています。以下からフルスケジュールをご覧いただき、NVIDIAの特別講演のリプレイをご覧ください。

NVIDIA Researchは、AI、コンピュータグラフィックス、コンピュータビジョン、自動運転車およびロボティクスなどのトピックに特化した数百人の科学者とエンジニアで構成されています。詳細については、NVIDIA Researchをご覧ください。また、NVIDIAヘルスケアニュースの購読もおすすめです。

メイン画像は、Argonne National LaboratoryのBharat Kale提供です。

この研究は、米国エネルギー省科学事務局および国立核安全保障局の協力による超大規模コンピューティングプロジェクト(17-SC-20-SC)によって支援されました。この研究は、COVID-19への対応を目的とした米国エネルギー省国立研究所の連邦バイオテクノロジーラボラトリウム(National Virtual Biotechnology Laboratory)による資金提供を含む、Coronavirus CARES法に基づく資金援助で支えられています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...

機械学習

量産自動運転におけるBEVパーセプション

BEVの認識技術は、ここ数年で非常に進歩しました自動運転車の周りの環境を直接認識することができますBEVの認識技術はエンド...

機械学習

カリフォルニア州での山火事との戦いにAIが役立つ方法

カリフォルニア州は、州を壊滅させた山火事に対抗する新たな武器、AIを手に入れました。 NVIDIAのGPUで訓練されたAIによって...

AIニュース

AIは宇宙からメタンの噴出を検出する

新しい機械学習ツールは、高分光衛星からのデータを使用して、宇宙からメタンプルームを自動的に検出します

機械学習

ハリウッドにおけるディズニーの論争:AIが登場し、脚本家と俳優が退場!

ハリウッドの中心地で、AIは分かれる存在になっています。映画業界の創造的本質を守るディズニーの脚本家や俳優たちは、AIが...

機械学習

「Google DeepMindが大規模な言語モデルを使用して解けない数学問題を解決」

彼らは生産物のほとんどを捨てなければならなかったが、ゴミの中には金があった