「単一細胞生物学のAIのフロンティアを探索する:GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

「美容・ファッション分野の専門家が解説する!単一細胞生物学AIの最新トレンド:GeneformerやscGPTを徹底評価!」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Geneformerなどのモデルは、この分野において有望なツールの一部です。しかし、特にゼロショット設定での効果が懸念されており、特に探索的実験や微調整のための明確なラベルの欠如がこの分野に関与する場合において、その有効性が問題となっています。この論文は、この問題に基づいて、これらのモデルのゼロショットパフォーマンスを徹底的に評価しています。

以前の研究では、特定のタスクに対してこれらのモデルを微調整することに頼ってきましたが、この分野の性質や高い計算要件のため、その限界は一目瞭然です。そのため、この課題に対処するため、マイクロソフトの研究者はGeneformerとscGPTの基礎モデルのゼロショットパフォーマンスを、異なるデータセットや細胞型クラスタリング、バッチエフェクトの修正、事前トレーニング目標に基づくモデルの入力再構築の有用性など、多様なタスクについて評価しました。

これらの2つのモデルを選んだ理由は、(評価時点で)事前学習済みの重みが利用可能であるためです。評価には、研究者はそれぞれのデータセットで訓練された生成モデルであるscVIを比較対象としました。以下のメトリックスを各タスクに使用しました:

  • 細胞埋め込みの評価には、Average Silhouette Width(ASW)およびAverage Bio(AvgBIO)スコアを使用し、細胞型が埋め込み空間内でどの程度一意であるかを計算しました。
  • バッチ統合においては、スケール0から1までのAWSスコアの変形を使用し、0はバッチの完全な分離を示し、1は完璧なバッチの混合を示します。
  • scGPTおよびGeneformerの事前トレーニング目標のパフォーマンス評価には、それぞれ平均二乗誤差(MSE)およびピアソンの相関係数を使用しました。

scGPTおよびGeneformerは、両方のメトリックスにおいてベースライン戦略よりも劣った結果となりました。Geneformerは異なるデータセットに対して高い分散を示し、scGPTは1つのデータセットにおいてはベースモデルscVIよりも優れた性能を発揮しましたが、2つのデータセットでは遅れを取りました。その後、研究者は事前学習データセットがモデルのパフォーマンスに与える影響を評価しました。特にscGPT(scGPTの4つのバリアント)に焦点を当て、すべてのモデルバリアントで中央値スコアが改善されたことが分かりました。

バッチエフェクトの評価では、両モデルが低い結果を示し、しばしばscVIのようなモデルに遅れを取ることから、ゼロショット環境においてバッチエフェクトに完全に頑健ではないことが示されています。最後の評価セットでは、研究者はscGPTが遺伝子の発現を再構築できないこと、一方Geneformerがより良いパフォーマンスを示すことを発見しました。ベースラインと比較した結果、すべてのscGPTバリアントよりもベースラインの予測の方が優れており、Geneformerはデータセットの1つで平均ランキングよりも優れた性能を発揮しました。

結論として、研究者は単一細胞生物学に適用した場合のscGPTとGeneformerのゼロショット能力を詳細に分析し、その結果はこれらのモデルの劣ったパフォーマンスを示しています。研究者はさらなる研究が必要な領域についても洞察を提供し、特に事前トレーニングタスクとデータセット、およびダウンストリーム分析タスクのパフォーマンスとの関係を明示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「FP8を用いたPyTorchトレーニング作業の高速化」

過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を...

機械学習

‘LinkedInの仕事検索機能を支える埋め込みアーキテクチャの内部’

埋め込みは、最近の大型言語モデル(LLMs)の応用において最も重要な要素の一つとなっていますベクトルデータベースといった...

AI研究

「研究によると、一部の文章作成タスクにおいてChatGPTは労働者の生産性を向上させることがわかりました」

MITの研究者による新しいレポートは、生成型AIが特定のライティング課題に取り組む労働者を支援する可能性を強調しています

AI研究

KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与え...

データサイエンス

クロマに会ってください:LLMs用のAIネイティブオープンソースベクトルデータベース-メモリを使用したPythonまたはJavaScript LLMアプリをより速く構築する方法

ワード埋め込みベクトルデータベースは、巨大な言語モデルの普及に伴い、ますます人気が高まっています。高度な機械学習技術...

機械学習

「MetaGPTと出会ってください:GPTをエンジニア、建築家、マネージャに変えるオープンソースAIフレームワーク」

大規模言語モデル(LLM)ベースのマルチエージェントシステムは、人間の操作を模倣し、改善するための非常に優れた機会を持っ...