スタンフォード大学の研究者たちは、「HyenaDNA」という名前の遠距離ゲノム基盤モデルを導入しましたこのモデルは、シングルヌクレオチド解像度で最大1百万トークンのコンテキスト長を持っています

スタンフォード大学の研究者は、「HyenaDNA」という遠距離ゲノム基盤モデルを導入しましたこのモデルは、最大1百万トークンのコンテキスト長を持ち、シングルヌクレオチド解像度で機能します

過去数年間、人工知能(AI)の分野では急速な進歩があり、これにより産業を完全に変革し、可能性の限界を押し上げる可能性があります。研究者たちによって注目されている分野の一つは、自然言語のタスクにおいてより堅牢かつ効率的なモデルの開発です。この文脈では、研究者たちはモデルがテキストを処理し理解する能力を決定するトークンの数を増やすことで、より長いトークンを処理できるモデルの開発に取り組んでいます。さらに、より多くのトークンを持つことにより、モデルはより広範なコンテキストを考慮に入れることができ、大規模なデータシーケンスを処理することができます。ただし、長期のコンテキストモデルに関しては、自然言語に対して大部分の関心が向けられており、長いシーケンスを扱うこと自体が本質的な問題であるジェノミクスには重要な見落としがあります。ジェノミクスは、生物の遺伝的な材料の構造、進化的要素などの異なる側面を研究することを含む分野です。自然言語モデルと同様のアプローチを取り入れ、研究者たちはジェノミクスにおいても非構造化のゲノムデータから一般的な特徴を獲得するために基礎モデル(FM)の使用を提案しています。これらのFMは、遺伝子の位置特定、制御要素の識別などのさまざまなタスクに対してファインチューニングすることができます。

しかし、Transformerアーキテクチャに基づいた既存のゲノムモデルは、DNA配列の処理において固有の課題に直面しています。そのような制限の一つは、DNA内の長距離相互作用のモデリングを制限するアテンションの二次スケーリングです。さらに、一般的なアプローチでは、有意義なDNA単位を集約するために固定されたk-merとトークナイザを使用しますが、これにより個々のDNAの特徴が失われることがあります。しかし、自然言語とは異なり、この損失は重要です。なぜなら、微妙な遺伝的な変異でもタンパク質の機能に深刻な影響を与える可能性があるからです。最近導入されたHyenaというLLMは、暗黙の畳み込みを利用することで、アテンションベースのモデルに対する有望な代替手法として登場しました。この革新的なアプローチにより、長いコンテキストの長さを処理できるようになり、計算時間の複雑さを大幅に削減しながら、アテンションベースのモデルと同等の品質を示しました。これらの発見に触発され、スタンフォード大学とハーバード大学の研究者チームは、Hyenaの能力を活用して、ゲノミックシーケンスの分析に必要な本質的な長距離の依存関係と個々のDNAの特徴を効果的に捉えることができるかどうかを調査しました。

これにより、HyenaDNAの開発が行われました。これは、既存のアテンションベースのモデルに比べて、単一ヌクレオチドレベルで最大100万トークンのコンテキスト長を処理できる前例のない能力を持つゲノミックFMです。Hyenaの長距離能力を活用することで、HyenaDNAはFlashAttentionを装備したTransformerよりも160倍高速に訓練することができます。HyenaDNAは、DNAとその複雑な相互作用をモデル化するために、Hyenaオペレータのスタックを利用しています。このモデルは非教示学習を使用してDNA配列の分布を学習し、遺伝子がどのようにエンコードされ、非コーディング領域が遺伝子発現の制御機能を果たすかを理解します。このモデルは、長距離種分類タスクなどのいくつかの難しいゲノムタスクで優れた性能を発揮します。さらに、少ないパラメータと事前トレーニングデータを使用しながら、Nucleotide Transformerに比べて17のデータセットのうち12つで最先端の結果を達成します。

前述のように、HyenaDNAは事前トレーニング中に最大100万トークンのコンテキスト長を実現し、ゲノム配列内の長距離の依存関係を効果的に捉えることができます。さらに、各層で利用可能なグローバルコンテキストを持つ単一ヌクレオチドの分解能とトークナイゼーションを利用して、モデルの能力をさらに向上させています。トレーニングの不安定さに対処し、プロセスをさらに迅速化するために、研究者たちはシーケンス長ウォームアップスケジューラを導入しました。これにより、種分類に関連するタスクのトレーニング時間が40%削減されました。HyenaDNAのもう一つの重要な利点は、パラメータの効率性です。研究者たちはモデルサイズと品質の関係について画期的な観察を行い、長いシーケンスと小さなボキャブラリーを持つ場合でも、HyenaDNAは以前のゲノミックFMに比べて大幅にサイズが小さいにもかかわらず、優れたパフォーマンスを発揮することを示しています。

研究者たちはHyenaDNAのパフォーマンスをいくつかのダウンストリームタスクで評価しました。GenomicBenchmarksデータセットでは、事前トレーニングモデルは以前のアプローチを大幅に上回る最先端のパフォーマンスを発揮しました。さらに、Nucleotide Transformerからのベンチマークでは、HyenaDNAは12つのデータセットで最先端の結果を達成し、パラメータが少なく、事前トレーニングデータも少ないことが特徴です。また、ジェノミクスにおけるコンテキスト内学習(ICL)の潜在能力を探るために、研究者たちは一連の実験を行いました。彼らはソフトプロンプトトークンの概念を導入し、凍結された事前トレーニングされたHyenaDNAモデルの入力が重みの更新やデコーダヘッドの追加なしで出力をガイドすることができるようにしました。ソフトプロンプトトークンの数を増やすことで、GenomicBenchmarksデータセットの精度が著しく向上しました。このモデルは、超長距離タスクにおいても優れた性能を発揮します。HyenaDNAは、難しいクロマチンプロファイルタスクにおいて、SOTAのスパーストランスフォーマモデルであるBigBirdと効果的に競合します。さらに、超長距離種分類タスクでは、コンテキスト長を450Kと1Mトークンに増やした場合でも、成功した結果を達成します。

これらの結果は、HyenaDNAが複雑なゲノムタスクを処理する能力と、長距離依存性と種の差異を解決する可能性を強調しています。彼らは、この進歩がAI支援の薬剤探索と治療イノベーションにおいて重要であると予想しています。さらに、これによりゲノム基盤モデルが個別の方法で患者のゲノム全体を学習・分析する能力が可能になり、ゲノムの理解と応用がさらに向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AlluxioがAI最適化されたデータプラットフォームを発表し、より高速なMLパイプラインを提供します

「AIイニシアチブの価値実現を加速させるために、AIと機械学習のワークロードのフルポテンシャルを引き出す簡素化されたデー...

データサイエンス

実生活の例とPythonコードで説明される隠れマルコフモデル

「隠れマルコフモデルは、気象予測から文の次の単語を見つけるまで、様々な現実の問題を解くために使用される確率モデルです」

機械学習

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介...

データサイエンス

「OpenAIが企業向けAIの扉を開放」

「ビジネスの自動化、カスタマイズ、コンプライアンスにおいて、OpenAIのエンタープライズソリューションを活用してください...

人工知能

「安全で、安心で信頼性のあるAIフレームワークを開発するための専門家の洞察」

「バイデン大統領の最近の執行命令に基づき、安全で信頼性のあるAIを重視するという方針に沿って、米国連邦政府の資金援助を...

データサイエンス

ChatGPT コードインタプリター 数分でデータサイエンスを実行する

この新しいChatGPTプラグインは、データを分析し、Pythonコードを書き、機械学習モデルを構築することができます