「AIモデルと化学者の洞察を組み合わせて、一度のステップで逆合成を予測する」
Combining AI models and chemists' insights to predict retrosynthesis in a single step.
有機合成では、有機的なプロセスを通じて分子が構築されるため、合成化学の重要な分野です。コンピュータ支援有機合成における最も重要な仕事の一つは、望ましい結果が与えられた場合に、反応の前駆体となる可能性のある物質を提案する逆合成分析1です。多くの可能性の中から最適な反応経路を見つけるためには、反応物の正確な予測が必要です。この記事の文脈では、マイクロソフトの研究者は、生成物分子に原子を提供する基質を「反応物」と呼んでいます。この論文では、反応を促進する溶媒や触媒は反応には寄与しないが、最終生成物には何らかの原子を提供するものとして反応物としてカウントされませんでした。最近、機械学習を基にした手法がこの問題に取り組む上で非常に有望な結果を示しています。これらの手法の多くは、出力のシーケンスをトークンごとに自己回帰的に生成することが特徴であり、エンコーダ・デコーダのフレームワークを使用しています。エンコーダコンポーネントは分子のシーケンスやグラフを高次元のベクトルとしてエンコードし、デコーダコンポーネントはエンコーダの出力をデコードします。
逆合成分析のプロセスは、一つの言語から別の言語への翻訳として概念化されました。ベイジアンのような確率を使用して、分子トランスフォーマを使用して探索的な手法を用いて逆合成経路を予測しました。既存の自然言語処理の手法を応用することにより、逆合成分析を機械翻訳の問題として再定義することが可能になりました。
トークンごとの自己回帰は、デコーディングの段階でSMILES出力文字列を構築するために使用されます。従来の方法では、SMILES文字列の基本的なトークンは通常、単一の原子や分子を指します。これは、合成設計や逆合成分析に従事する化学者にとって直感的かつ説明可能ではありません。現実のルート探索の課題に直面した場合、ほとんどの合成化学者は、既存の反応経路の知識と基本原理から得られた抽象的な理解を組み合わせて、反応経路を開発するために、長年の訓練と経験に頼ることが一般的です。一般的に、逆合成分析は、ターゲット分子と化学的に類似しているか保持されている分子断片または部分構造から始まります。これらの断片または部分構造は、正しい組み合わせが行われれば、一連の化学プロセスを通じて最終生成物に至ることができるパズルのピースです。
- 「トップのGPTとAIコンテンツ検出器」
- 「イデオグラムはテキストから画像への変換をどのように革新するのか? DALL-EやMidjourneyを超えるAIプラットフォームが文字を生成する」
- 「GenAIソリューションがビジネス自動化を革新する方法:エグゼクティブ向けLLMアプリケーションの解説」
研究者は、エキスパートシステムやテンプレートライブラリを使わずに有機合成で通常保持されるサブストラクチャを使用することを提案しています。これらのサブストラクチャは、広範な既知の反応の集合から取得され、反応物と生成物の間の微小な共通点を捉えています。この意味では、逆合成分析をサブストラクチャレベルでのシーケンス・トゥ・シーケンス学習の問題と捉えることができます。
抽出されたサブストラクチャのモデリング
有機化学では、ターゲット分子に化学的に類似したあるいは保持される分子断片や小さな構成要素を「サブストラクチャ」と呼びます。これらのサブストラクチャは、複雑な分子がどのように組み立てられるかを明らかにするのに重要です。
このアイデアに触発され、フレームワークには次の3つの主要な部分があります:
製品分子を提供すると、このモジュールは類似の生成物を生成する他の反応を見つけます。クロスリンガルメモリリトリーバを使用して、適切に反応物と生成物を高次元のベクトル空間に配置することができます。
研究者は、分子フィンガープリントを使用して、製品分子と最良のクロスアラインメントの可能性との間の共有サブストラクチャを分離します。これらのサブストラクチャは、反応レベルで反応物と生成物の間の断片間のマッピングを提供します。
サブストラクチャのレベルでの相互シーケンスカップリング学習では、研究者は初期のトークンのシリーズを取り、それをサブストラクチャのシーケンスに変換します。サブストラクチャのSMILES文字列が新しい入力シーケンスの最初に位置し、仮想番号でラベル付けされた追加のフラグメントのSMILES文字列が続きます。仮想番号付きの断片が出力シーケンスです。結合形成やリンクする部位は、それに対応する仮想番号で示されます。
他の試行評価された手法と比較して、この手法はほとんどの場所で同等またはより高いトップワンの精度を実現しています。サブストラクチャが正常に回収されたデータのサブセットでは、モデルのパフォーマンスが大幅に向上しています。
米国特許商標庁のテストデータセットの商品の82%は、この手法を使用してサブストラクチャが正常に抽出されました。これは、その汎用性を証明しています。
分子の文字列表現の長さと予測する必要のある原子の数を減らすために、サブストラクチャ内の仮想タグ付き粒子に関連する部分だけを生成する必要がありました。
結論として、マイクロソフトの研究者は、逆合成予測において普遍的に保存されるサブストラクチャを導出する手段を考案しました。彼らは人間の助けなしで基礎となる構造を抽出することができます。現在の実装は、以前に公開されたモデルと比較して改善されています。また、基礎となるサブストラクチャの抽出手法を改善することで、モデルの逆合成予測の性能を向上させることが示されています。本研究は、逆合成予測および関連する研究における興味深く多様な領域について読者の好奇心を引くことを目指しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles