DTBind:基于机制驱动的深度学习框架精准预测药物-靶标分子识别

时间:2025年12月3日
来源:Research

编辑推荐:

本文推荐DTBind这一创新深度学习框架,其核心在于通过机制驱动的统一架构(整合序列、结构和复合物水平信息),系统解决药物-靶标分子识别中的关键问题(包括结合发生DTI、结合位点定位及结合亲和力Kd/Ki预测)。该框架凭借分层自适应解码器与基于关键识别决定因素(如几何匹配、表面可及性)的编码器,在多项基准测试(如CASF-2016、PDBbind)中显著超越现有方法(如DeepDTA、GraphDTA),为早期药物发现提供了更准确、可泛化的计算工具。

广告
   X   

概述DTBind框架
DTBind是一个统一的、机制驱动的深度学习框架,旨在准确预测药物-靶标分子识别的三个相互关联的层次:结合是否发生(结合发生预测)、结合发生在何处(结合位点定位)以及结合强度如何(结合亲和力估计)。该框架的核心创新在于其共享的、基于关键识别决定因素的编码器,以及信息自适应的解码器,能够根据可用的数据类型(序列、结构或复合物结构)进行分层预测。药物被表示为原子级分子图,编码原子和化学键的物理化学属性。蛋白质靶标则被建模为残基级图,包含分层嵌入:几何特征(如残基间距离dij、局部坐标系)、功能与物理化学属性(通过ProtT5大型语言模型获取的嵌入向量),以及表面特征(如平均曲率、高斯曲率、形状指数,反映口袋形态和可及性)。这些分子图经过编码后,产生原子和残基级别的嵌入,随后被馈送到三个信息自适应解码器中,分别对应三个识别维度。
DTBind准确预测基于靶标序列的药物-靶标结合
结合发生预测被建模为一个二元分类问题。在近乎平衡的BioSNAP数据集上,DTBind与多种基线方法(DeepConvDTI、DrugBAN、MolTrans和SVM)进行了比较。评估指标包括马修斯相关系数(MCC)、F1分数、准确度、受试者工作特征曲线下面积(AUROC)、精确率-召回率曲线下面积(AUPRC)和特异性。经过五次独立运行,DTBind在所有指标上均表现出优异且稳定的性能。例如,其AUROC达到0.935,AUPRC达到0.940,分别比最强的竞争对手DrugBAN高出3.54%和4.21%。在平衡判别方面,DTBind的F1分数为0.872,MCC为0.740,分别比DrugBAN提升3.44%和10.12%。这些结果证明了DTBind在区分真实结合剂与非结合剂方面的可靠性,为虚拟筛选提供了强大的工具。
DTBind准确识别基于蛋白质结构的结合位点
结合位点预测是一个高度不平衡的二元分类问题,只有一小部分残基是真正的结合位点。DTBind的绑定位点解码器采用了多头部交叉注意力(MCA)来捕获残基-药物相互作用,以及残基自注意力来增强残基特异性上下文。在PDBbind数据集上,DTBind与最先进的方法(DeepSurf、P2Rank、PUResNet V2.0和CLAPE-SMB)进行了比较。评估指标包括F1分数、MCC、AUROC和AUPRC。DTBind在五次独立运行中表现出高度稳定性(F1 = 0.589 ± 0.001, MCC = 0.581 ± 0.001, AUROC = 0.948 ± 0.005, AUPRC = 0.584 ± 0.005)。与基线相比,DTBind实现了显著的提升,例如F1分数比第二好的预测器PUResNet V2.0提高了41.3%,AUPRC提高了145.8%。这表明DTBind能够更有效地识别结合和非结合残基,为基于结构的药物设计提供了精确的定位信息。
DTBind准确估计基于复合物结构的药物-靶标结合亲和力
结合亲和力预测是一个回归任务,旨在量化相互作用的强度。DTBind的亲和力解码器将每个药物-靶标复合物表示为一个异质分子图,节点代表蛋白质残基和药物原子,边编码残基-原子相互作用信息。在CASF-2016基准集上,DTBind与DTIAM、DeepDTA、GraphDTA、KDBNet和MONN等基线方法进行了比较。性能通过均方根误差(RMSE)、平均绝对误差(MAE)、皮尔逊相关系数和斯皮尔曼相关系数进行评估。DTBind在所有指标上均优于基线,平均RMSE为1.2393(比最接近的竞争者DTIAM降低约3.7%),平均皮尔逊相关系数为0.8042(提升1.7%)。散点图显示预测值与实验值紧密分布在y=x线周围。此外,跨不同蛋白质家族(如激酶、核受体、离子通道)的评估表明DTBind具有良好的泛化能力。这些结果凸显了DTBind在定量预测结合强度方面的准确性和鲁棒性。
基于机制的蛋白质编码逐步驱动准确预测
为了解DTBind的决策机制,研究通过残基级Grad-CAM分析了关键决定因素嵌入的功能相关性。评估了三个特征整合阶段:阶段1(节点特征:序列衍生的物理化学属性)、阶段2(节点+边特征:增加几何边特征)、阶段3(节点+边+表面特征:进一步整合表面特征)。定量分析显示,在按Grad-CAM激活分数排名前5%的残基中,真实结合残基的比例从阶段1的0.274(富集10.91倍)增加到阶段3的0.340(富集12.94倍)。对代表性复合物(如PDB ID: 1d4l, 1di8)的可视化证实,随着几何和表面特征的加入,高激活分数逐渐集中在实验验证的结合残基上,表明分层编码系统地增强了模型区分结合位点的能力。
DTBind跨不同复合物提供一致的分子识别预测
通过四个代表性复合物(1ydt、1p1n、3arq、3jya)的案例研究评估了DTBind的实际效用,这些案例涵盖了激酶抑制、神经递质受体调节和酶抑制等不同功能类别。对于每个复合物,DTBind同时生成了三个层次的预测:二元相互作用分类、残基级结合位点定位和定量亲和力估计。预测结果与PLIP分析得到的真实值高度一致,结合位点预测通常每个复合物仅遗漏1-2个残基,亲和力预测误差在0.7个单位以内。这些案例表明DTBind能够提供相互协调的多层次分子识别视图,支持理性药物设计。
DTBind为缺乏实验结构的蛋白质提供可靠预测
研究还将DTBind应用于三个缺乏实验复合物结构的药物-靶标对(UniProt ID: B0BL08, P48729, Q15059),其蛋白质结构来自AlphaFold数据库。DTBind预测的结合残基与分子动力学模拟中配体可及的动态稳定空腔空间重叠。这表明DTBind的预测与结构动力学物理一致,扩展了其在实际药物发现中的应用范围,特别是在实验结构稀缺的情况下。
讨论与展望
DTBind通过将分子识别建模为一个分层过程,并整合关键的决定因素,在预测准确性、鲁棒性和可解释性方面均优于现有方法。其性能优势源于共享的、基于决定因素的蛋白质编码(序列语义、几何编码、表面感知)和信息自适应解码器(针对不同任务优化)的协同作用。尽管存在高质量复合物结构有限、计算成本较高等挑战,但DTBind所体现的原则——机制驱动的编码和多层次自适应解码——有望扩展到其他生物分子识别问题(如蛋白质-蛋白质、蛋白质-RNA相互作用)。通过提供开源代码和预训练模型,DTBind不仅为早期药物筛选提供了实用工具,也推动了对药物-靶标分子识别的系统化、机制基础的理解。

生物通微信公众号
微信
新浪微博


生物通 版权所有