スタンフォード大学の研究者たちは、「HyenaDNA」という名前の遠距離ゲノム基盤モデルを導入しましたこのモデルは、シングルヌクレオチド解像度で最大1百万トークンのコンテキスト長を持っています

スタンフォード大学の研究者は、「HyenaDNA」という遠距離ゲノム基盤モデルを導入しましたこのモデルは、最大1百万トークンのコンテキスト長を持ち、シングルヌクレオチド解像度で機能します

過去数年間、人工知能(AI)の分野では急速な進歩があり、これにより産業を完全に変革し、可能性の限界を押し上げる可能性があります。研究者たちによって注目されている分野の一つは、自然言語のタスクにおいてより堅牢かつ効率的なモデルの開発です。この文脈では、研究者たちはモデルがテキストを処理し理解する能力を決定するトークンの数を増やすことで、より長いトークンを処理できるモデルの開発に取り組んでいます。さらに、より多くのトークンを持つことにより、モデルはより広範なコンテキストを考慮に入れることができ、大規模なデータシーケンスを処理することができます。ただし、長期のコンテキストモデルに関しては、自然言語に対して大部分の関心が向けられており、長いシーケンスを扱うこと自体が本質的な問題であるジェノミクスには重要な見落としがあります。ジェノミクスは、生物の遺伝的な材料の構造、進化的要素などの異なる側面を研究することを含む分野です。自然言語モデルと同様のアプローチを取り入れ、研究者たちはジェノミクスにおいても非構造化のゲノムデータから一般的な特徴を獲得するために基礎モデル(FM)の使用を提案しています。これらのFMは、遺伝子の位置特定、制御要素の識別などのさまざまなタスクに対してファインチューニングすることができます。

しかし、Transformerアーキテクチャに基づいた既存のゲノムモデルは、DNA配列の処理において固有の課題に直面しています。そのような制限の一つは、DNA内の長距離相互作用のモデリングを制限するアテンションの二次スケーリングです。さらに、一般的なアプローチでは、有意義なDNA単位を集約するために固定されたk-merとトークナイザを使用しますが、これにより個々のDNAの特徴が失われることがあります。しかし、自然言語とは異なり、この損失は重要です。なぜなら、微妙な遺伝的な変異でもタンパク質の機能に深刻な影響を与える可能性があるからです。最近導入されたHyenaというLLMは、暗黙の畳み込みを利用することで、アテンションベースのモデルに対する有望な代替手法として登場しました。この革新的なアプローチにより、長いコンテキストの長さを処理できるようになり、計算時間の複雑さを大幅に削減しながら、アテンションベースのモデルと同等の品質を示しました。これらの発見に触発され、スタンフォード大学とハーバード大学の研究者チームは、Hyenaの能力を活用して、ゲノミックシーケンスの分析に必要な本質的な長距離の依存関係と個々のDNAの特徴を効果的に捉えることができるかどうかを調査しました。

これにより、HyenaDNAの開発が行われました。これは、既存のアテンションベースのモデルに比べて、単一ヌクレオチドレベルで最大100万トークンのコンテキスト長を処理できる前例のない能力を持つゲノミックFMです。Hyenaの長距離能力を活用することで、HyenaDNAはFlashAttentionを装備したTransformerよりも160倍高速に訓練することができます。HyenaDNAは、DNAとその複雑な相互作用をモデル化するために、Hyenaオペレータのスタックを利用しています。このモデルは非教示学習を使用してDNA配列の分布を学習し、遺伝子がどのようにエンコードされ、非コーディング領域が遺伝子発現の制御機能を果たすかを理解します。このモデルは、長距離種分類タスクなどのいくつかの難しいゲノムタスクで優れた性能を発揮します。さらに、少ないパラメータと事前トレーニングデータを使用しながら、Nucleotide Transformerに比べて17のデータセットのうち12つで最先端の結果を達成します。

前述のように、HyenaDNAは事前トレーニング中に最大100万トークンのコンテキスト長を実現し、ゲノム配列内の長距離の依存関係を効果的に捉えることができます。さらに、各層で利用可能なグローバルコンテキストを持つ単一ヌクレオチドの分解能とトークナイゼーションを利用して、モデルの能力をさらに向上させています。トレーニングの不安定さに対処し、プロセスをさらに迅速化するために、研究者たちはシーケンス長ウォームアップスケジューラを導入しました。これにより、種分類に関連するタスクのトレーニング時間が40%削減されました。HyenaDNAのもう一つの重要な利点は、パラメータの効率性です。研究者たちはモデルサイズと品質の関係について画期的な観察を行い、長いシーケンスと小さなボキャブラリーを持つ場合でも、HyenaDNAは以前のゲノミックFMに比べて大幅にサイズが小さいにもかかわらず、優れたパフォーマンスを発揮することを示しています。

研究者たちはHyenaDNAのパフォーマンスをいくつかのダウンストリームタスクで評価しました。GenomicBenchmarksデータセットでは、事前トレーニングモデルは以前のアプローチを大幅に上回る最先端のパフォーマンスを発揮しました。さらに、Nucleotide Transformerからのベンチマークでは、HyenaDNAは12つのデータセットで最先端の結果を達成し、パラメータが少なく、事前トレーニングデータも少ないことが特徴です。また、ジェノミクスにおけるコンテキスト内学習(ICL)の潜在能力を探るために、研究者たちは一連の実験を行いました。彼らはソフトプロンプトトークンの概念を導入し、凍結された事前トレーニングされたHyenaDNAモデルの入力が重みの更新やデコーダヘッドの追加なしで出力をガイドすることができるようにしました。ソフトプロンプトトークンの数を増やすことで、GenomicBenchmarksデータセットの精度が著しく向上しました。このモデルは、超長距離タスクにおいても優れた性能を発揮します。HyenaDNAは、難しいクロマチンプロファイルタスクにおいて、SOTAのスパーストランスフォーマモデルであるBigBirdと効果的に競合します。さらに、超長距離種分類タスクでは、コンテキスト長を450Kと1Mトークンに増やした場合でも、成功した結果を達成します。

これらの結果は、HyenaDNAが複雑なゲノムタスクを処理する能力と、長距離依存性と種の差異を解決する可能性を強調しています。彼らは、この進歩がAI支援の薬剤探索と治療イノベーションにおいて重要であると予想しています。さらに、これによりゲノム基盤モデルが個別の方法で患者のゲノム全体を学習・分析する能力が可能になり、ゲノムの理解と応用がさらに向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成AIの布地を調整する:FABRICは反復的なフィードバックで拡散モデルを個別化するAIアプローチです」

ジェネラティブAIは、今では私たち全員が馴染みのある用語です。最近、彼らは大きく進化し、多くのアプリケーションで重要な...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...

機械学習

「さまざまな深層学習を用いた天気予測モデルに関する研究」

気象予測の世界的な影響を考慮して、様々な研究コミュニティの研究者の関心を引いてきました。最近のディープラーニング技術...

機械学習

スタンフォード大学とGoogleからのこのAI論文は、生成エージェントを紹介しています生成エージェントは、人間の振る舞いをシミュレートするインタラクティブな計算エージェントです

明らかに、AIボットは高品質かつ流暢な自然言語を生成することができます。長い間、研究者や実践者は、異なる種類の相互作用...

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...

データサイエンス

埋め込みの視覚化

「私は1990年に初めてAIの論文を地元の小さなカンファレンスである「ミッドウエスト人工知能・認知科学協会」に提出しました...