「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

CLAMP New AI tool for adaptable molecular activity prediction in inference

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課題となってきました。近年の技術の進歩により、化学構造とそのような分子の特性との相関を発見するために、多くの機械学習アルゴリズムが使用されてきました。さらに、ディープラーニングの登場により、望ましくない特徴を持つ分子を除外した後、残りの分子を生物学的なテストのためにランク付けするために使用されるアクティビティ予測モデルが導入されました。これらのアクティビティ予測モデルは、計算薬物探索産業の主要な作業馬であり、自然言語処理の大規模言語モデルやコンピュータビジョンの画像分類モデルと比較することができます。これらのディープラーニングベースのアクティビティ予測モデルは、化学フィンガープリント、記述子、分子グラフ、SMILESの文字列表現、またはこれらの組み合わせなど、さまざまな低レベルの化学構造の記述を使用しています。

これらのアーキテクチャは優れたパフォーマンスを発揮していますが、ビジョンや言語の分野ほどの革新的な進展はありませんでした。通常、生物学的な実験または「バイオアッセイ」と呼ばれる分子のペアとアクティビティラベルを使用してアクティビティ予測モデルをトレーニングします。トレーニングデータの注釈付け(またはバイオアクティビティとも呼ばれる)プロセスは非常に時間と労力がかかるため、研究者はデータポイントの少ない状況で効率的にアクティビティ予測モデルをトレーニングする方法を切望しています。さらに、現在のアクティビティ予測アルゴリズムは、生物学的実験のテキスト記述という形でのアクティビティ予測タスクに関する包括的な情報をまだ使用することができません。これは、これらのモデルがトレーニングまたは微調整されるバイオアッセイまたはアクティビティ予測タスクからの計測データが必要なためです。そのため、現在のアクティビティ予測モデルはゼロショットのアクティビティ予測を行うことができず、少数のデータポイントに対して予測精度が低いです。

ゼロショットおよび少数ショットの能力が報告されているため、研究者はさまざまな科学的言語モデルを低データのタスクに活用しています。ただし、これらのモデルは、アクティビティ予測において予測品質が著しく欠けています。これに取り組むため、オーストリアのヨハネス・ケプラー大学リンツの機械学習部門の著名な研究者グループは、化学データベースをトレーニングまたは事前トレーニングデータとして使用し、効率的な分子エンコーダを選択することで、より良いアクティビティ予測を実現することができると発見しました。このために、彼らはアクティビティ予測のための対照的な言語-アッセイ-分子の事前トレーニング(CLAMP)という新しいアーキテクチャを提案しています。このモジュール化されたアーキテクチャは、これらの2つのデータモダリティを対照的に事前トレーニングする別々の分子エンコーダと言語エンコーダで構成されています。研究者たちはまた、化学データベースに含まれる情報に対する対照的な事前トレーニング目的も提案しています。このデータには、生物医学テキストに含まれる化学構造よりも桁違いに多くの化学構造が含まれています。

先述の通り、CLAMPはトレーニング可能なテキストエンコーダを使用してバイオアッセイ埋め込みを作成し、トレーニング可能な分子エンコーダを使用して分子埋め込みを作成します。これらの埋め込みはレイヤ正規化されていると想定されています。オーストリアの研究者たちが提案した手法には、スコアリング関数も含まれており、あるバイオアッセイで分子が活性である場合には高い値を提供し、活性でない場合には低い値を提供します。さらに、対照的な学習戦略により、モデルはゼロショットの転移学習の能力を持ち、簡単に言えば未知のバイオアッセイに対して洞察に満ちた予測を生成します。研究者によるいくつかの実験評価の結果、彼らの手法は少数ショット学習のベンチマークと薬物探索のゼロショット問題で予測パフォーマンスを大幅に改善し、転移可能な表現を提供することが明らかになりました。研究者たちは、モデルのモジュール化アーキテクチャと事前トレーニング目的がその優れたパフォーマンスの主な理由であると考えています。

CLAMPは優れたパフォーマンスを発揮していますが、改善の余地はまだあります。化学投与量など、バイオアッセイの結果に影響を与える多くの要素が考慮されていません。さらに、文法の不一致や否定による不正確な予測の場合もあります。それにもかかわらず、対照的な学習方法CLAMPは、いくつかの大規模データセットにおけるゼロショット予測薬物探索タスクで最も優れたパフォーマンスを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ONNXモデル | オープンニューラルネットワークエクスチェンジ

はじめに ONNX(Open Neural Network Exchange)は、深層学習モデルの表現を容易にする標準化されたフォーマットとして広く認...

データサイエンス

ドメイン適応:事前に学習済みのNLPモデルの微調整

ドメイン適応のために事前学習済みNLPモデルの微調整方法を学びましょう特定の文脈でのパフォーマンスと精度を向上させますス...

データサイエンス

情報とエントロピー

1948年、数学者のクロード・E・シャノンが「通信の数学的理論」という記事を発表し、機械学習における重要な概念であるエント...

機械学習

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをも...

機械学習

ディープラーニングのためのPythonとC++による自動微分

このストーリーでは、トレーニングループ中にパラメータの勾配を自動的に計算する現代のディープラーニングフレームワークの...

機械学習

「LangChain、Activeloop、そしてGPT-4を使用して、Redditのソースコードをリバースエンジニアリングするための分かりやすいガイド」

この記事では、Redditのバージョン1のソースコードをリバースエンジニアリングして、その動作をより理解します