TRACER:融合条件 Transformer 与强化学习,开启反应感知化合物优化新征程

时间:2025年2月10日
来源:Communications Chemistry

编辑推荐:

在药物研发中,现有化合物探索模型常忽视有机合成可行性。研究人员开展 “Molecular optimization using a conditional transformer for reaction-aware compound exploration with reinforcement learning” 研究,构建 TRACER 框架。结果显示其能有效生成高分化合物,为药物发现提供新途径。

广告
   X   

在药物研发的漫漫长路上,寻找具有理想特性的小分子药物宛如大海捞针。传统的药物研发模式不仅耗时长久,动辄超过 12 年,而且成本高昂,平均高达 26 亿美元。在早期研究阶段,研究人员通常借助高通量筛选或虚拟筛选来寻找对目标蛋白具有高抑制活性的苗头化合物(hit compounds),随后对其结构进行拓展,试图在庞大的化学空间中找到合适的药物候选化合物。然而,随着深度学习的蓬勃发展,虽然分子生成模型不断涌现,但这些模型大多只关注 “制造什么”,却忽略了 “如何制造” 这一关键问题,即没有充分考虑所生成分子的有机合成可行性。这就好比建造一座大厦,只设计了精美的外观,却没有考虑建筑材料和施工方法是否可行,导致在实际合成这些分子时困难重重,严重阻碍了药物从理论设计到实验室合成的转化进程。
为了解决这一棘手问题,来自日本东京理科大学(Institute of Science Tokyo)的研究人员展开了深入研究。他们提出了一种名为 TRACER 的创新框架,该框架将分子性质优化与合成途径生成巧妙地整合在一起,为药物研发带来了新的曙光。研究结果表明,TRACER 能够有效地生成具有高活性分数的化合物,在药物发现领域展现出巨大的潜力。这一研究成果发表在《Communications Chemistry》杂志上,引起了广泛关注。

在这项研究中,研究人员主要运用了以下几种关键技术方法:

  1. 条件 Transformer 模型:基于注意力机制构建,能够通过学习化学反应,从反应物中识别影响反应的子结构,从而准确预测产物。为控制虚拟化学反应的多样性,研究人员在输入的 SMILES 序列开头添加反应模板索引,训练模型预测相应反应的产物。
  2. 图卷积网络(GCN):用于预测反应物适用的反应模板,通过对化合物的 SMILES 表示进行处理,经过卷积层、密集层和聚合层等操作,最终输出预测的反应模板。
  3. 蒙特卡洛树搜索(MCTS):与条件 Transformer 和 GCN 相结合,通过选择、扩展、模拟和反向传播四个步骤,搜索最优化合物。以定量构效关系(QSAR)模型预测的目标蛋白活性概率作为奖励函数,引导搜索方向。

研究结果


  1. 条件标记对化学反应的影响:通过计算部分准确率(partial accuracy)和完美准确率(perfect accuracy)评估模型对产物结构的识别能力。结果发现,无论是否存在反应模板信息,模型的部分准确率都能快速达到约 0.9,但完美准确率提升较慢。添加反应模板信息后,模型的完美准确率和 top - n 准确率均有所提高,且条件 Transformer 模型能生成更多样的产物,表明其能从条件标记中提取化学反应知识,对未知的反应物和化学反应组合也能提出合理的产物。
  2. 通过 QSAR 模型优化针对特定蛋白质的化合物并生成合成路线:针对 DRD2、AKT1 和 CXCR4,研究人员从 USPTO 1k TPL 数据集选择起始材料,利用 MCTS 进行计算。结果显示,TRACER 能有效生成与 USPTO 数据库中不同的化合物,且生成具有高 QSAR 值化合物的效率受起始化合物影响。通过调整条件 Transformer 模型的波束宽度,在不同情况下既能促进广度探索生成高奖励分子,也能通过深度探索发现高奖励分子。此外,研究还发现增加波束宽度对生成分子的多样性在部分情况下有降低趋势,而对其他材料无显著影响。
  3. 模型生成的反应途径:研究展示了各起始材料生成的具有最高奖励值的化合物及其合成路线,发现所有起始材料均可商购或可合成,且 TRACER 能正确预测化学反应的选择性,而基于反应模板的方法难以做到这一点。
  4. 与包含合成路线生成的分子生成模型的对比分析:将 TRACER 与其他基准模型(Molecule Chef、DoG - Gen、CasVAE 和 SynFlowNet)进行比较。结果表明,TRACER 在化合物独特性、生成与训练数据差异较大的化合物能力方面表现出色;在针对不同靶蛋白时,TRACER 的 USPTO - 独特化合物比率和 FCD 值较高,展示了其在考虑实际化学反应的情况下对化学空间的有效探索能力。
  5. 涉及 QSAR 模型从未见分子开始的结构优化实验:从 ZINC 数据库获取非专利样化合物数据集,选择具有高配体效率(LE)的化合物作为起始材料进行结构优化实验。结果显示,TRACER 能优化这些化合物的结构,提高奖励值,生成与已知配体结构相似且具有可比结合潜力的化合物,表明该框架即使从训练数据中未包含的分子开始,也能有效生成优化化合物。

研究结论与讨论


本研究成功开发了一种条件 Transformer 模型,与无条件模型相比,显著提高了输出产物预测的准确性。通过纳入反应模板信息,模型能够通过多种化学反应生成分子。TRACER 框架在优化针对特定蛋白质的化合物方面表现出良好的适用性,MCTS 不同搜索宽度的实验表明,在不同情况下,调整搜索宽度可有效发现高奖励值分子。此外,TRACER 能通过添加商业可得的构建模块进行结构转化,且在基准实验中探索的化学空间更远离训练数据,对起始化合物和靶蛋白的变化具有较强的鲁棒性。然而,研究也指出,未来需要利用更大的数据集优化模型,探索其在更多样奖励函数下的应用潜力,进一步提高该方法的鲁棒性。同时,整合反应条件推荐模型或多目标优化模型等,有望进一步加速药物发现任务中新型化合物的优化进程。这项研究为药物研发提供了一种创新的思路和方法,为未来的药物发现研究奠定了重要基础,有望推动整个生命科学和健康医学领域的发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有