MMRCL:一个可解释的多模态深度学习框架,用于预测hERG阻滞剂

时间:2026年2月2日
来源:Computational Biology and Chemistry

编辑推荐:

hERG抑制剂预测多模态框架MMRCL整合分子指纹与图表示,通过双通道MPNN和跨模态注意力机制提升预测精度(AUC 0.8895)与可解释性,揭示关键亚结构关联。

广告
   X   

杨苏|吴金洲|杨傲|袁玉敏|杜文丽|向毅|沈卫峰
重庆科技大学计算机科学与工程学院(人工智能学院),中国重庆401331

摘要

与人ether-a-go-go相关的基因(hERG)编码一种对心脏动作电位复极化至关重要的电压门控钾通道。药物诱导的hERG抑制可以延长QT间期,导致严重的心脏疾病,如尖端扭转型室性心动过速和致命性心律失常。在药物化学中,早期预测hERG抑制剂对于降低心脏毒性风险至关重要,可以减少药物撤回和发现过程中的经济损失。为了解决这个问题,开发了一个可解释的多模态分子表示交叉学习框架(MMRCL),该框架整合了多维分子指纹和分子图谱来丰富结构特征。MMRCL结合了用于原子和键级结构特征的双通道消息传递神经网络(MPNN)和用于基于分子指纹的语义的多层感知器。多头交叉注意力机制能够自适应地融合不同模态的特征,实现深度相关性建模,随后是一个全连接神经网络分类器。在内部数据集(12,518种具有高维指纹和图谱特征的化合物)和三个外部测试集上的广泛评估表明,MMRCL的性能优于七种最先进的基线模型,在内部数据集上取得了最佳的AUC 0.8895、PRC 0.9073和MCC 0.6146。可解释性分析确定了与hERG抑制活性相关的关键毒性亚结构,有助于探索结构-活性关系。消融研究进一步证实了多模态输入和基于注意力的融合的贡献。MMRCL在预测准确性和泛化能力方面表现优异,同时也提高了模型的可解释性,为药物化学家提供了可操作的见解。

引言

心脏病,特别是心律失常,是一个重大的全球健康负担,如长QT综合征(LQTS)和尖端扭转型室性心动过速(TdP)由于心脏复极化紊乱而具有生命威胁(Mitcheson等人,2000年;Roden,2004年)。与人ether-a-go-go相关的基因(hERG,也称为KCNH2)编码一种电压门控钾通道(Kv11.1),它在延迟整流钾电流(IKr)的快速成分中起关键作用,这对正常的心脏动作电位复极化至关重要(Vandenberg等人,2012年)。药物或基因突变对hERG通道的抑制可以延长心电图上的QT间期,增加室性心律失常和猝死的风险(Roden,2004年)。在药物化学中,hERG的潜在毒性是药物发现过程中的一个关键问题,因为意外的阻断可能导致心脏毒性,这促使FDA等机构制定了早期筛查的指导方针(Fermini和Fossa,2003年)。定量结构-活性关系(QSAR)和计算机模拟(in silico)概念是药物化学的重要组成部分,能够虚拟预测分子与离子通道的相互作用,以降低风险并减少后期项目的淘汰。常用的hERG研究数据集包括ChEMBL的大规模集合,其中包含了超过10,000种具有hERG抑制IC50值的化合物,以及hERG Central数据库,该数据库汇集了来自不同化学空间的膜片钳实验数据(Du等人,2011年;Siramshetty等人,2020年)。这些数据集为模型开发提供了重要的基准,涵盖了从已批准药物到研究化合物的结构多样化的分子,促进了生物学和计算科学之间的跨学科研究。
传统的体外实验方法,如放射性配体结合实验(Yu等人,2015年)、膜片钳电生理学(Danker和Möller,2014年)和荧光测量(Dorn等人,2005年),已被用于评估hERG的抑制作用。然而,这些实验方法成本高昂、耗时且通量有限。为了解决这些挑战,计算方法,特别是机器学习(ML)和深度学习(DL),已成为虚拟(in silico)hERG毒性筛查的有希望的替代方案。
在过去十年中,提出了各种基于机器学习(ML)的方法,这些方法使用分子描述符、药效团或指纹,并结合支持向量机(SVM)、朴素贝叶斯(NB)、随机森林(RF)和偏最小二乘(PLS)等分类器。例如,Song等人(Song和Clark,2006年)使用基于片段的描述符和三种不同的ML算法(包括SVM、PLS和RF)成功开发了一个hERG结合亲和力的定量结构-活性关系(QSAR)模型,并分析了相关的关键片段。Leong等人(Leong,2007年)使用一组假设的药效团形成了一个药效团集合,并通过SVM回归预测了hERG抑制的风险。Wang等人(Wang等人,2020年)基于多个药效团构建了一个二分类模型,使用NB和SVM算法预测hERG抑制活性。最近,HERGAI是一个基于结构的AI框架,它在超过300,000种化合物上进行了训练,使用集成ML和蛋白质-配体指纹实现了对强效hERG抑制剂的高召回率(Tran-Nguyen等人,2025年)。
尽管一些基于ML的方法表现出良好的预测性能,但仍有一些问题需要改进,例如数据样本的多样性有限和适用范围受限。因此,在将模型外推到未知的实验数据集时,大多数研究会遇到高误报率,这可能导致在后续开发过程中不必要的放弃这些候选药物,从而增加开发过程的整体成本和时间消耗(Cai等人,2019年)。
最近,深度学习方法在分子性质预测方面展示了卓越的能力,包括hERG抑制。Cai等人(Cai等人,2019年)率先开发了一个名为deephERG的多任务深度学习预测模型,用于药物设计和批准后观察中的hERG抑制活性预测,这是DL模型在hERG抑制剂预测建模中的早期应用之一。Ryu等人(Ryu等人,2020年)开发了三个独立的DL模型(基于分子描述符的DNN、基于分子指纹的DNN和基于分子图谱的GCN模型),提供了可靠的hERG抑制剂预测,并证明在使用相同特征数据时,基于分子指纹的DNN表现出更优越的预测性能。此外,还有从分子表示到高级模型的多种基于DL的模型,以提高预测准确性,例如hERG-Att(Kim和Nam,2020年)、卷积胶囊网络(Wang等人,2020年)和CardioTox net(Karim等人,2021b)。Lee和Yoo(Lee和Yoo,2025年)提出了hERGAT,这是一个图注意力网络,它结合了原子和分子级别的注意力来突出对hERG抑制有贡献的亚结构。进一步ML和DL模型的详细描述见补充表S3。
然而,这些模型主要依赖于单模态表示,通常孤立地处理分子图谱或指纹。这样的方法可能会忽略其他模态中嵌入的互补信息,如药效团或亚结构模式,限制了模型捕捉多尺度分子相互作用的能力。为了解决这些限制,一些研究开始探索和实施多模态学习方法以提高泛化能力。例如,Dong等人(Dong等人,2023年)开发了一个用于预测药物-蛋白质相互作用的新多模态学习框架,使用分子变换器和异构图卷积网络提取微观亚结构和宏观多尺度邻域信息。这种方法比现有方法实现了更准确的预测。Zhang等人(Zhang等人,2024年)开发了一个预训练的多模态融合框架,从分子指纹、SMILES表示、分子图谱和3D拓扑表示中提取分子嵌入,用于性质预测,证明了其在各种性质预测任务中的优越性。
整合多种分子表示可以提高模型的适应性,并通过利用互补的结构和语义信息克服单一来源特征的局限性。然而,仍有许多挑战尚未解决。许多先前的研究为单独的表示构建了独立的模型,而没有充分探索它们之间的依赖性。简单地将特征连接起来往往无法捕捉有意义的跨模态相关性。此外,大多数基于图谱的hERG预测模型仅关注以原子为中心的特征,忽略了键级结构信息。大多数深度学习模型仍然是黑箱,缺乏可解释性——这是理解hERG毒性的亚结构基础的基本要求。
受这些见解的启发,我们提出了一个新颖的深度学习(DL)框架,即多模态分子表示交叉学习框架(MMRCL),用于预测hERG抑制剂。与需要大量训练数据或黑箱预测的高复杂性模型不同,MMRCL实现了平衡的设计,具有三个核心目标:(1)有效整合多种分子表示(指纹和图谱);(2)通过双视图消息传递(以原子和键为中心)实现架构可解释性;(3)通过多头交叉注意力机制实现自适应特征融合。该设计旨在在数据资源可能有限的早期阶段筛查中提供强大的预测性能和增强的透明度。此外,通过分子指纹和图谱的可解释性分析,实现了关键亚结构的识别,促进了进一步的药物化学研究。MMRCL的性能在精心策划的内部数据集和三个独立的外部测试集上进行了评估。结果表明,MMRCL不仅实现了强大且一致的预测性能,还揭示了与hERG抑制相关的关键亚结构,并得到了实验验证。与现有模型相比,MMRCL为药物发现中评估心脏毒性风险提供了一个实用、可解释且通用的解决方案。

方法

本节概述了本研究的详细方法和技术。具体来说,它描述了用于hERG抑制剂预测的分子指纹和分子图谱表示,并提出了MMRCL的多模态分子表示交叉学习的一般框架。然后详细阐述了MMRCL中的每个模块及其实现方式。

结果与讨论

本节旨在介绍收集的数据集、评估指标和基线方法。此外,还通过基线方法进行了比较实验和消融研究,以证明MMRCL的有效性和泛化能力。最后,通过可视化研究分析了MMRCL的可解释性。

结论

在这项研究中,采用了一个名为MMRCL的新颖DL可解释框架,通过整合基于图谱的MPNN和混合分子指纹的DNN来提取丰富的潜在分子结构特征,用于hERG抑制剂预测。首先,MMRCL使用MPNN的两种不同视图(以原子为中心和以键为中心)从分子图谱中捕获结构特征信息,并使用DNN从混合分子指纹中学习药物特定的特征信息。

伦理批准

本文不包含任何作者进行的动物实验。

资助

本研究得到了中国重庆市自然科学基金(资助编号CSTB2024NSCQ-MSX0431)、重庆市教育委员会科学技术研究计划(资助编号KJ202401531)、中国国家自然科学基金(22308037)以及中国工业控制技术国家重点实验室的开放研究项目(资助编号ICT2024B01)的支持。

CRediT作者贡献声明

袁玉敏:撰写 – 审稿与编辑,验证。向毅:撰写 – 审稿与编辑。杜文丽:撰写 – 审稿与编辑,验证。杨苏:撰写 – 初稿,验证,方法论,调查。杨傲:撰写 – 审稿与编辑,监督。吴金洲:撰写 – 审稿与编辑,监督,资源管理,数据整理,概念化。沈卫峰:撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有