「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

Interview Series with Dr. Serafim Batzoglou, Seer's Chief Data Officer

セラフィム・バツォグルーはSeerの最高データオフィサーです。Seerに参加する前、セラフィムはInsitroの最高データオフィサーとして、薬の発見における機械学習とデータサイエンスをリードしました。Insitroの前は、Illuminaの応用および計算生物学の副社長として、人間の健康におけるゲノムデータの解釈をより実現可能にするためのAIおよび分子アッセイの研究と技術開発をリードしました。

遺伝子組織学の分野に最初に興味を持ったきっかけは何でしたか？

MITでコンピュータサイエンスの博士課程を始めた頃、私はボニー・バーガーとデイビッド・ギフォードによって教えられた遺伝子組織学の授業を受けました。その時期には人間ゲノムプロジェクトが進行中でした。MITのゲノムセンターを率いていたエリック・ランダーが私の博士課程の共同指導教官となり、私をプロジェクトに関与させてくれました。人間ゲノムプロジェクトに刺激され、私は人間とマウスのDNAの全ゲノムアセンブリと比較ゲノミクスに取り組みました。

その後、私はStanford大学のコンピュータサイエンス学科の教員として15年間を過ごし、非常に才能のある博士課程の学生約30人、多くの博士研究員や学部生に助言をする機会を得ました。私のチームは、大規模なゲノムおよび生体分子データの解析のためのアルゴリズム、機械学習、ソフトウェアツールの開発に重点を置いてきました。2016年にStanfordを離れ、Illuminaの研究および技術開発チームを率いるために転職しました。それ以来、私は業界の研究開発チームをリードすることを楽しんでいます。私はキャリアの中で革新的な企業で働いてきました。2009年に共同創設したDNAnexus、Illumina、insitro、そして現在のSeerです。バイオテクノロジーにおいて、計算と機械学習は技術開発からデータ取得、生物学的データの解釈、ヒトの健康への転換まで、技術チェーン全体で不可欠です。

過去20年間で、人間ゲノムのシーケンシングは格段に安価で速くなりました。これにより、ゲノムシーケンス市場は急速に成長し、生命科学産業全体で広く採用されるようになりました。私たちは、予防、診断、治療、薬の発見など、医療を革新するために十分な規模の集団ゲノム、多オミックス、および表現型データを持つことができる最先端に立っています。私たちは、ゲノムデータの計算解析によって個人の疾患の分子的基盤をますます発見できるようになり、特にがんや希少遺伝疾患の領域では、パーソナライズされたターゲット治療を受ける機会があります。医学以外の面でも、ゲノム情報と機械学習の組み合わせにより、家族歴や栄養状態など、私たちの生活の他の側面に対する洞察を得ることができます。次の数年間では、個別のグループ（例：希少疾患患者）を対象としたパーソナライズされたデータ駆動型医療の採用が進み、次第に一般の人々にも広まっていくでしょう。

Insitroの最高データオフィサーとして、薬の発見における機械学習の活用方法について、いくつかの重要なポイントを教えてください。

従来の薬の発見と開発の「試行錯誤」のパラダイムには非効率性と非常に長い期間がかかるという問題があります。1つの薬を市場に出すためには、10億ドル以上と10年以上かかることがあります。機械学習をこれらの取り組みに組み込むことで、いくつかのステップでコストと期間を劇的に削減することができます。1つはターゲットの同定であり、大規模な遺伝子および化学的摂動、および画像および機能ゲノミクスなどの表現型リードアウトを介して、病気の表現型を調節する遺伝子または遺伝子セット、または病気の細胞状態をより健康な状態に戻す遺伝子を同定することができます。もう1つは化合物の同定と最適化であり、機械学習によるインシリコ予測およびインビトロスクリーニングによって、小分子やその他のモダリティを設計することができ、さらに溶解度、浸透性、特異性、非毒性などの薬の望ましい特性を最適化することができます。最も困難であり、また最も重要な側面はおそらく人間への転写です。ここでは、適切なモデルの選択（誘導多能性幹細胞由来の細胞株対主要な患者細胞株および組織サンプル対動物モデル）は、最終的にはデータと機械学習の患者への転写能力に反映される非常に重要なトレードオフのセットを提供します。

Seer Bioは、プロテオームの秘密を解読して人間の健康を向上させる新しい方法を開拓しています。この用語について詳しく知らない読者のために、プロテオームとは何ですか？

プロテオームとは、組織によって生産または変更されるタンパク質の変化するセットであり、時間や環境、栄養状態、および健康状態に応じて変化します。プロテオミクスは、特定の細胞タイプまたは組織サンプル内のプロテオームの研究です。ヒトや他の生物のゲノムは静的です。重要な例外である体細胞突然変異を除いて、生まれたときのゲノムは一生変わることなく、体のすべての細胞で正確に複製されます。プロテオームは動的であり、数年、数日、さらには数分の時間スパンで変化します。そのため、プロテオームはゲノムよりも表現型、最終的には健康状態により密接に関連しており、健康状態をモニタリングし、疾患を理解するためにより情報を提供します。

Seerでは、プロテオームへのアクセス方法を開発しました。これにより、血漿などの複雑なサンプル中のタンパク質やプロテオフォームについて、従来の質量分析プロテオミクスでは困難であった深い洞察を提供します。

SeerのProteograph™プラットフォームとは何であり、どのようにプロテオームの新たな視点を提供しているのでしょうか？

SeerのProteographプラットフォームは、独自のエンジニアリングナノ粒子のライブラリを活用し、シンプルで迅速かつ自動化されたワークフローを採用しています。これにより、プロテオームを深くかつスケーラブルに探索することが可能となります。

Proteographプラットフォームは、血漿などの複雑なサンプルを探索する際に優れた性能を発揮します。これらのサンプルでは、様々なタンパク質の存在量に多数の桁の差がありますが、従来の質量分析法ではプロテオームの存在量が低い部分を検出することができません。Seerのナノ粒子は、チューニング可能な物理化学的特性を備えており、ダイナミックレンジ全体のタンパク質をバイアスのない方法で収集します。通常の血漿サンプルでは、Proteographを使用せずに処理する場合と比較して、5倍から8倍多くのタンパク質を検出することができます。その結果、サンプルの準備から装置操作、データ解析まで、Proteographプロダクトスイートは、他では検出できないプロテオーム疾患の署名を科学者に提供します。Seerでは、プロテオームへの新たなゲートウェイを開拓していると言っています。

さらに、私たちは科学者が簡単に大規模なプロテオゲノミクス研究を行えるようにしています。プロテオゲノミクスとは、ゲノムデータとプロテオミクスデータを組み合わせて、タンパク質の変異体を同定し、ゲノム変異とタンパク質の存在量の関連を明らかにし、最終的にゲノムとプロテオームを表現型と疾患に関連付け、疾患と関連した因果関係や下流の遺伝子経路を解明することです。

Seer Bioで現在使用されているいくつかの機械学習技術について話していただけますか？

Seerでは、技術開発からデータ解析まで、あらゆる段階で機械学習を活用しています。これらの段階には以下のものが含まれます：(1) 独自のナノ粒子の設計では、機械学習が特定の製品ラインとアッセイに適した物理化学的特性やナノ粒子の組み合わせを決定するのに役立ちます。(2) MS装置から生成されるデータのリードアウトデータから、ペプチド、タンパク質、変異体、プロテオフォームの検出と定量化を行います。(3) 大規模な人口コホートにおけるプロテオミクスおよびプロテオゲノミクス解析。

昨年、私たちはAdvanced Materialsでプロテオミクス手法、ナノエンジニアリング、および機械学習を組み合わせた論文を発表しました。この論文では、ナノバイオ相互作用を明らかにし、改良された将来のナノ粒子と製品の開発に情報を提供しています。

ナノ粒子の開発に加えて、私たちは変異ペプチドや翻訳後修飾（PTM）の同定に向けた新しいアルゴリズムの開発に取り組んでいます。また、アフィニティベースのプロテオミクスにおいて既知の混乱要因であるタンパク質変異に頑健なタンパク質定量トレイト座位（pQTLs）の検出方法を開発しました。私たちはこの方法を拡張し、ディープラーニングベースのde novoシーケンシング方法を使用して生のスペクトラルデータからこれらのペプチドを直接同定できるようにしています。これにより、スペクトラルライブラリのサイズを膨らませずに検索が可能となります。

私たちのチームはまた、機械学習に深い専門知識を持たない科学者が、自らの発見作業で機械学習モデルを最適に調整し利用するための手法を開発しています。これは、AutoMLツールに基づくSeer MLフレームワークを通じて実現されており、ベイジアン最適化による効率的なハイパーパラメータのチューニングが可能です。

最後に、私たちはバッチ効果を軽減し、質量分析の定量精度を向上させるための手法を開発しています。これは、測定された定量値をモデリングし、タンパク質グループ内のペプチド間の強度値の相関など、期待されるメトリクスを最大化することによって実現されます。

LLM（大規模言語モデル）には幻覚がよく起こる問題がありますが、これを防止または軽減するためのいくつかの解決策はありますか？

LLMは生成モデルであり、大規模なコーパスが与えられると、それと似たテキストを生成するために訓練されます。LLMは、訓練データの統計的特性を捉えます。単語（またはトークン）の組み合わせがどのように頻繁に一緒に現れるかなど、単純な局所的特性から、文脈や意味の理解を模倣するようなより高次の特性までを含みます。

ただし、LLMの主な訓練目的は正確さではありません。人間のフィードバックを用いた強化学習（RLHF）やその他の技術を用いて、正確さなどの望ましい特性に訓練されますが、完全に成功するわけではありません。LLMにプロンプトを与えると、LLMは訓練データの統計的特性に最も似たテキストを生成します。しばしば、このテキストは正しいものです。たとえば、「アレクサンダー大王はいつ生まれたか」と尋ねられた場合、正しい答えは紀元前356年（または紀元前）であり、LLMはこれを答えることが多いです。しかし、「エンプレス・レジネラはいつ生まれたか」という、トレーニングコーパスに存在しない架空のキャラクターについて尋ねられた場合、LLMは幻想的な説明を作り出す傾向があります。同様に、正しい答えを取得できない質問（正しい答えが存在しないか、他の統計的な目的のために）に対しても、LLMは幻想的な回答を生成する傾向があります。これは、「あるがんはどのように治療されるか」といった重要な応用において明らかな問題となります。

幻覚に対する完全な解決策はまだありません。これはLLMの設計上の問題です。一つの部分的な解決策は適切な促しです。例えば、「思慮深く、段階的に考えるように」とLLMに頼むことです。これにより、LLMが物語をでっち上げる可能性が低くなります。より洗練されたアプローチとしては、知識グラフの使用が開発されています。知識グラフは構造化されたデータを提供します。知識グラフ内のエンティティは、事前に定義された論理的な方法で他のエンティティと接続されています。特定のドメインのための知識グラフの構築は、もちろん挑戦的な課題ですが、自動化および統計的な手法とキュレーションの組み合わせで実行可能です。組み込まれた知識グラフを持つLLMは、生成された文を構造化された既知の事実のセットに対してクロスチェックすることができ、知識グラフに矛盾する文を生成しないように制約を加えることができます。

幻覚の根本的な問題と、十分な推論能力と判断能力の欠如のため、LLMは医療診断や法的アドバイスなどの重要なアプリケーションでは人間の専門家を置き換えることはできませんが、これらのドメインにおける人間の専門家の効率と能力を大幅に向上させることができます。

データに基づく仮説ではなく、データによって生物学が制御される未来のビジョンを共有していただけますか？

研究者がパターンを見つけ、仮説を立て、それをテストするための実験や研究を行い、その後データに基づいて理論を洗練させるという従来の仮説駆動型アプローチは、データ駆動型モデリングに基づく新しいパラダイムに置き換わりつつあります。

この新しいパラダイムでは、研究者は仮説に基づかない大規模なデータ生成から始めます。そして、LLMなどの機械学習モデルを訓練し、欠損データの正確な再構築、数多くの下流タスクにおける強力な回帰または分類性能を目指します。機械学習モデルがデータを正確に予測し、実験の再現性と同等の信頼性を達成すると、研究者はモデルを調査し、生物学的なシステムについて洞察を得ることができます。

LLMは、生物分子データのモデリングに特に優れた能力を持ち、仮説駆動型からデータ駆動型の生物学的発見への移行を促進するように調整されています。この移行は今後10年間でますます顕著になり、人間の能力をはるかに超える細胞レベルでの生物分子システムの正確なモデリングを可能にします。

疾患診断や薬剤探索への潜在的な影響は何ですか？

私はLLMと生成型AIが生命科学産業に重要な変化をもたらすと信じています。LLMが特に恩恵をもたらす分野の一つは、まれで診断が困難な疾患やがんのサブタイプの臨床診断です。私たちは、ゲノムプロファイル、治療反応、医療記録、家族歴など、包括的な患者情報を活用することができます。これらのデータを個々の医療機関によって隔離されずに容易にアクセス可能にする方法を見つけることができれば、診断の精度を劇的に向上させることができます。機械学習モデル、特にLLMは、診断において独立して動作することはできませんが、近い将来は人間の専門家を補完するための強力なツールとなるでしょう。医師が過去に比べて非常に情報豊富な評価と診断を提供し、診断を患者および機械学習システムを通じて接続された全体の医療提供者ネットワークに適切に文書化および伝達するのに役立ちます。

既に産業界では、薬剤探索および開発に機械学習を活用しており、従来のパラダイムに比べてコストとタイムラインが削減される能力があります。LLMは利用可能なツールボックスにさらなる付加価値を提供し、ゲノム、プロテオーム、機能ゲノムおよびエピゲノムデータ、単一細胞データなどの大規模な生物分子データのモデリングに優れたフレームワークを提供しています。将来的には、基礎となるLLMがこれらのデータのモダリティを横断し、ゲノム、プロテオーム、健康情報を収集した大規模な個体群に接続されることは間違いありません。このようなLLMは、有望な薬剤ターゲットの生成、生物学的機能および疾患に関連するタンパク質の活動領域の特定、または特定の方法で小分子や他の薬剤モダリティで調節できる経路やより複雑な細胞機能を示唆することができます。また、遺伝的な感受性に基づいて薬剤の反応者と非反応者を特定したり、他の疾患適応症で薬剤を再利用したりするために、LLMを活用することもできます。既存の革新的なAIベースの薬剤探索企業の多くは、既にこの方向で考え、開発を始めていることは間違いありません。そして、LLMの人間の健康と薬剤探索における展開を目指した追加の企業や公的な取り組みの形成を見ることが予想されます。

詳細なインタビューありがとうございました。さらに詳細を知りたい読者はSeerを訪れてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

GenomicsInterviewSEERSeer bio

Was this article helpful?

93 out of 132 found this helpful

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

Was this article helpful?

「PandasAIを用いたデータ分析における生成型AIの活用」

「教室の革命：AIによる学習の新時代」

データサイエンス