スタンフォード大学の研究者たちは、「HyenaDNA」という名前の遠距離ゲノム基盤モデルを導入しましたこのモデルは、シングルヌクレオチド解像度で最大1百万トークンのコンテキスト長を持っています

スタンフォード大学の研究者は、「HyenaDNA」という遠距離ゲノム基盤モデルを導入しましたこのモデルは、最大1百万トークンのコンテキスト長を持ち、シングルヌクレオチド解像度で機能します

過去数年間、人工知能(AI)の分野では急速な進歩があり、これにより産業を完全に変革し、可能性の限界を押し上げる可能性があります。研究者たちによって注目されている分野の一つは、自然言語のタスクにおいてより堅牢かつ効率的なモデルの開発です。この文脈では、研究者たちはモデルがテキストを処理し理解する能力を決定するトークンの数を増やすことで、より長いトークンを処理できるモデルの開発に取り組んでいます。さらに、より多くのトークンを持つことにより、モデルはより広範なコンテキストを考慮に入れることができ、大規模なデータシーケンスを処理することができます。ただし、長期のコンテキストモデルに関しては、自然言語に対して大部分の関心が向けられており、長いシーケンスを扱うこと自体が本質的な問題であるジェノミクスには重要な見落としがあります。ジェノミクスは、生物の遺伝的な材料の構造、進化的要素などの異なる側面を研究することを含む分野です。自然言語モデルと同様のアプローチを取り入れ、研究者たちはジェノミクスにおいても非構造化のゲノムデータから一般的な特徴を獲得するために基礎モデル(FM)の使用を提案しています。これらのFMは、遺伝子の位置特定、制御要素の識別などのさまざまなタスクに対してファインチューニングすることができます。

しかし、Transformerアーキテクチャに基づいた既存のゲノムモデルは、DNA配列の処理において固有の課題に直面しています。そのような制限の一つは、DNA内の長距離相互作用のモデリングを制限するアテンションの二次スケーリングです。さらに、一般的なアプローチでは、有意義なDNA単位を集約するために固定されたk-merとトークナイザを使用しますが、これにより個々のDNAの特徴が失われることがあります。しかし、自然言語とは異なり、この損失は重要です。なぜなら、微妙な遺伝的な変異でもタンパク質の機能に深刻な影響を与える可能性があるからです。最近導入されたHyenaというLLMは、暗黙の畳み込みを利用することで、アテンションベースのモデルに対する有望な代替手法として登場しました。この革新的なアプローチにより、長いコンテキストの長さを処理できるようになり、計算時間の複雑さを大幅に削減しながら、アテンションベースのモデルと同等の品質を示しました。これらの発見に触発され、スタンフォード大学とハーバード大学の研究者チームは、Hyenaの能力を活用して、ゲノミックシーケンスの分析に必要な本質的な長距離の依存関係と個々のDNAの特徴を効果的に捉えることができるかどうかを調査しました。

これにより、HyenaDNAの開発が行われました。これは、既存のアテンションベースのモデルに比べて、単一ヌクレオチドレベルで最大100万トークンのコンテキスト長を処理できる前例のない能力を持つゲノミックFMです。Hyenaの長距離能力を活用することで、HyenaDNAはFlashAttentionを装備したTransformerよりも160倍高速に訓練することができます。HyenaDNAは、DNAとその複雑な相互作用をモデル化するために、Hyenaオペレータのスタックを利用しています。このモデルは非教示学習を使用してDNA配列の分布を学習し、遺伝子がどのようにエンコードされ、非コーディング領域が遺伝子発現の制御機能を果たすかを理解します。このモデルは、長距離種分類タスクなどのいくつかの難しいゲノムタスクで優れた性能を発揮します。さらに、少ないパラメータと事前トレーニングデータを使用しながら、Nucleotide Transformerに比べて17のデータセットのうち12つで最先端の結果を達成します。

前述のように、HyenaDNAは事前トレーニング中に最大100万トークンのコンテキスト長を実現し、ゲノム配列内の長距離の依存関係を効果的に捉えることができます。さらに、各層で利用可能なグローバルコンテキストを持つ単一ヌクレオチドの分解能とトークナイゼーションを利用して、モデルの能力をさらに向上させています。トレーニングの不安定さに対処し、プロセスをさらに迅速化するために、研究者たちはシーケンス長ウォームアップスケジューラを導入しました。これにより、種分類に関連するタスクのトレーニング時間が40%削減されました。HyenaDNAのもう一つの重要な利点は、パラメータの効率性です。研究者たちはモデルサイズと品質の関係について画期的な観察を行い、長いシーケンスと小さなボキャブラリーを持つ場合でも、HyenaDNAは以前のゲノミックFMに比べて大幅にサイズが小さいにもかかわらず、優れたパフォーマンスを発揮することを示しています。

研究者たちはHyenaDNAのパフォーマンスをいくつかのダウンストリームタスクで評価しました。GenomicBenchmarksデータセットでは、事前トレーニングモデルは以前のアプローチを大幅に上回る最先端のパフォーマンスを発揮しました。さらに、Nucleotide Transformerからのベンチマークでは、HyenaDNAは12つのデータセットで最先端の結果を達成し、パラメータが少なく、事前トレーニングデータも少ないことが特徴です。また、ジェノミクスにおけるコンテキスト内学習(ICL)の潜在能力を探るために、研究者たちは一連の実験を行いました。彼らはソフトプロンプトトークンの概念を導入し、凍結された事前トレーニングされたHyenaDNAモデルの入力が重みの更新やデコーダヘッドの追加なしで出力をガイドすることができるようにしました。ソフトプロンプトトークンの数を増やすことで、GenomicBenchmarksデータセットの精度が著しく向上しました。このモデルは、超長距離タスクにおいても優れた性能を発揮します。HyenaDNAは、難しいクロマチンプロファイルタスクにおいて、SOTAのスパーストランスフォーマモデルであるBigBirdと効果的に競合します。さらに、超長距離種分類タスクでは、コンテキスト長を450Kと1Mトークンに増やした場合でも、成功した結果を達成します。

これらの結果は、HyenaDNAが複雑なゲノムタスクを処理する能力と、長距離依存性と種の差異を解決する可能性を強調しています。彼らは、この進歩がAI支援の薬剤探索と治療イノベーションにおいて重要であると予想しています。さらに、これによりゲノム基盤モデルが個別の方法で患者のゲノム全体を学習・分析する能力が可能になり、ゲノムの理解と応用がさらに向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIの今週、8月18日:OpenAIが財政的な問題に直面 • Stability AIがStableCodeを発表

「This Week in AI」はVoAGIで提供される、人工知能の世界での最新の出来事を週ごとにまとめた記事です最新のヘッドライン、...

データサイエンス

「HuggingFaceを使用したLlama 2 7B Fine-TunedモデルのGPTQ量子化」

前の記事では、Meta AIが最近リリースした新しいLlama 2モデルを使用して、わずか数行のコードでPythonコードジェネレータを...

AI研究

AIモデルが高解像度のコンピュータビジョンを高速化します

システムは、ビデオストリーミングにおける画像品質の向上や、自動運転車両がリアルタイムで道路の危険を識別するのに役立つ...

機械学習

AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法

追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットで...

データサイエンス

逆戻り、個人化、そしてKaggle症候群

最近、私はKaggleのBlack Friday Predictionデータセットを使用した予測のケーススタディに取り組みましたこのデータセットは...

機械学習

より速い治療:Insilico Medicineが生成型AIを使用して薬剤開発を加速する方法

生成AIは比較的新しい家庭用語ですが、薬剤研究会社Insilico Medicineは、長年にわたってこれを使用して、深刻な疾患の新しい...