「単一細胞生物学のAIのフロンティアを探索する:GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

「美容・ファッション分野の専門家が解説する!単一細胞生物学AIの最新トレンド:GeneformerやscGPTを徹底評価!」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Geneformerなどのモデルは、この分野において有望なツールの一部です。しかし、特にゼロショット設定での効果が懸念されており、特に探索的実験や微調整のための明確なラベルの欠如がこの分野に関与する場合において、その有効性が問題となっています。この論文は、この問題に基づいて、これらのモデルのゼロショットパフォーマンスを徹底的に評価しています。

以前の研究では、特定のタスクに対してこれらのモデルを微調整することに頼ってきましたが、この分野の性質や高い計算要件のため、その限界は一目瞭然です。そのため、この課題に対処するため、マイクロソフトの研究者はGeneformerとscGPTの基礎モデルのゼロショットパフォーマンスを、異なるデータセットや細胞型クラスタリング、バッチエフェクトの修正、事前トレーニング目標に基づくモデルの入力再構築の有用性など、多様なタスクについて評価しました。

これらの2つのモデルを選んだ理由は、(評価時点で)事前学習済みの重みが利用可能であるためです。評価には、研究者はそれぞれのデータセットで訓練された生成モデルであるscVIを比較対象としました。以下のメトリックスを各タスクに使用しました:

  • 細胞埋め込みの評価には、Average Silhouette Width(ASW)およびAverage Bio(AvgBIO)スコアを使用し、細胞型が埋め込み空間内でどの程度一意であるかを計算しました。
  • バッチ統合においては、スケール0から1までのAWSスコアの変形を使用し、0はバッチの完全な分離を示し、1は完璧なバッチの混合を示します。
  • scGPTおよびGeneformerの事前トレーニング目標のパフォーマンス評価には、それぞれ平均二乗誤差(MSE)およびピアソンの相関係数を使用しました。

scGPTおよびGeneformerは、両方のメトリックスにおいてベースライン戦略よりも劣った結果となりました。Geneformerは異なるデータセットに対して高い分散を示し、scGPTは1つのデータセットにおいてはベースモデルscVIよりも優れた性能を発揮しましたが、2つのデータセットでは遅れを取りました。その後、研究者は事前学習データセットがモデルのパフォーマンスに与える影響を評価しました。特にscGPT(scGPTの4つのバリアント)に焦点を当て、すべてのモデルバリアントで中央値スコアが改善されたことが分かりました。

バッチエフェクトの評価では、両モデルが低い結果を示し、しばしばscVIのようなモデルに遅れを取ることから、ゼロショット環境においてバッチエフェクトに完全に頑健ではないことが示されています。最後の評価セットでは、研究者はscGPTが遺伝子の発現を再構築できないこと、一方Geneformerがより良いパフォーマンスを示すことを発見しました。ベースラインと比較した結果、すべてのscGPTバリアントよりもベースラインの予測の方が優れており、Geneformerはデータセットの1つで平均ランキングよりも優れた性能を発揮しました。

結論として、研究者は単一細胞生物学に適用した場合のscGPTとGeneformerのゼロショット能力を詳細に分析し、その結果はこれらのモデルの劣ったパフォーマンスを示しています。研究者はさらなる研究が必要な領域についても洞察を提供し、特に事前トレーニングタスクとデータセット、およびダウンストリーム分析タスクのパフォーマンスとの関係を明示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Googleと一緒にジェネレーティブAIを学びましょう」

「Googleの10の無料コースでジェネラティブAIを学びましょう拡散モデル、エンコーダーデコーダーアーキテクチャ、アテンショ...

AIニュース

「日本のショーが救助活動の未来としてロボットの一端を提供する」

「Japan Mobility Show」は、国の高齢化人口や労働力不足の問題に対処するのに役立つロボット技術を紹介しました

機械学習

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最...

機械学習

「MetaGPTと出会ってください:GPTをエンジニア、建築家、マネージャに変えるオープンソースAIフレームワーク」

大規模言語モデル(LLM)ベースのマルチエージェントシステムは、人間の操作を模倣し、改善するための非常に優れた機会を持っ...

機械学習

AIにおける音の革命に備えよう 2023年は生成音波の年です

前年は、コンピュータビジョン(CV)および自然言語処理(NLP)に集中した作業量が大幅に増加しました。そのため、世界中の学...

機械学習

人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて

研究者は、ChatGPTの形態能力を厳密に評価し、英語、ドイツ語、タミル語、トルコ語の4つの言語で比較します。ChatGPTは専門シ...