DBCA-DTI:一种基于双向自适应门控交叉注意力机制的双分支多模态框架,用于药物-靶点相互作用预测

时间:2026年2月8日
来源:Knowledge-Based Systems

编辑推荐:

多模态融合DTI预测框架DBCA-DTI通过双分支协同机制,结合LLM增强的语义编码与物化属性特征提取,采用双向自适应门控跨注意力模块强化跨模态交互,实现多源特征深度融合,显著提升DTI预测精度。

广告
   X   

Jia Peng|刘晓宇|周晓东|王磊|朱贤友
衡阳师范学院计算机科学与技术学院,中国衡阳,421000

摘要

准确识别药物-靶点相互作用(DTIs)对于提高药物发现中的筛选效率并降低实验成本至关重要。然而,现有的DTI预测方法仍面临两个主要挑战:(1)特征表示依赖于单一模态数据,难以全面描述药物和靶点的多层次属性;(2)有限的跨模态融合能力阻碍了捕捉药物和靶点之间的复杂关联,导致预测性能受限。为了解决这些问题,本研究提出了一个双分支协作多模态融合DTI预测框架(DBCA-DTI)。该框架包括两个特征编码分支:第一个是增强型语义特征分支,利用预训练的大型语言模型对药物分子和蛋白质进行编码,准确捕捉其高维语义信息;第二个是物理化学属性特征分支,结合RDKit提取的药物结构描述符和基于氨基酸的蛋白质基本特征,以增强模型在物理化学属性维度上的特征表达能力和识别能力。此外,两个分支都采用了双向自适应门控交叉注意力机制来增强药物和靶点之间的跨模态相互作用。多模态特征融合模块整合了两个分支的多样化输出,提升了整体的表示能力和预测鲁棒性。实验结果表明,DBCA-DTI在多个公共基准数据集上的表现显著优于现有主流方法。该研究为DTI预测提供了一种高效、灵活且可扩展的解决方案。代码可访问地址为:https://github.com/myseverus/DBCA-DTI

引言

准确识别药物-靶点相互作用(DTIs)是药物发现和再利用的核心步骤。在这一过程中,高效筛选潜在活性化合物不仅可以大幅缩短研发周期,还可以显著降低体外实验带来的高昂成本和资源浪费[1]、[2]。随着生物医学大数据的快速增长,开发具有高准确性和强泛化能力的计算DTI预测方法已成为突破传统药物研发瓶颈的迫切需求。DTI预测技术的发展历史反映了人们对生物分子特性的深入认识。早期的传统方法,如分子对接模拟和基于配体的策略,为这一领域奠定了坚实的基础。然而,由于高质量三维结构数据的稀缺性和对复杂分子间相互作用建模的限制,这些方法难以应用于大规模筛选[3]、[4]。后续的机器学习方法,包括支持向量机(SVM)、随机森林[5]、[6]、旋转森林[7]和矩阵分解[8]、[9]、[10],通过引入统计特征提高了预测效率。然而,它们对人工特征工程的依赖性强且无法捕捉非线性生物模式,限制了模型的潜力[11]。
近年来,由于深度学习强大的表示学习能力,它已成为DTI预测的主流范式。早期的深度学习模型主要关注序列信息的挖掘。例如,DeepDTA[12]、TransformerCPI[13]、MolTrans[14]和MSCMLCIDTI[15]分别使用卷积神经网络(CNN)或Transformer架构从SMILES字符串和蛋白质序列中提取特征。尽管这些基于序列的方法可以有效捕捉上下文模式,但它们常常忽略分子的拓扑结构,导致关键结构信息的丢失。为了解决这个问题,基于图神经网络(GNN)的方法应运而生。包括GraphCPI[16]、GraphDTA[17]、iNGNN-DTI[18](结合AlphaFold2[19]结构)以及SGCL-DTI[20]和GSL-DTI[21]在内的研究,将药物视为拓扑图,并使用图卷积网络(GCNs)或图注意力网络(GATs)提取原子间的几何和化学属性。尽管基于图的方法在结构表示方面取得了突破,但它们通常局限于局部邻域聚合,难以捕捉长距离语义依赖性。
为了进一步模拟药物和靶点之间的实际结合过程,引入了注意力机制来加强相互作用建模。DrugBAN[22]结合了双线性网络[23],而HyperAttentionDTI[24]、CoaDTI[25]和MCANet[26]等研究试图通过双线性注意力、共注意力或多头交叉注意力来关注在结合中起关键作用的局部区域。同时,随着大型语言模型(LLMs)的兴起,利用预训练模型(如Prot-BERT)提取高维语义特征的多模态方法(如MGNDTI[27]、ColdstartCPI[28])展示了巨大潜力。然而,尽管现有的多模态和注意力增强方法取得了显著进展,当前的DTI预测方法仍面临两个核心瓶颈:首先,生物特征表示仅限于单一模态数据,无法全面捕捉药物和靶点的多层次属性;其次,相互作用建模的深度不足,无法完全揭示两者之间的复杂依赖关系。
为了克服上述限制,本文提出了一个基于双分支协作机制的多模态特征融合DTI预测框架(DBCA-DTI),旨在通过多源特征协作建模和深度交互机制的设计,实现特征表示的全面性和多模态融合的效率。具体而言,第一个分支基于LLMs构建,分别使用Prot-BERT和SMILES-BERT对蛋白质和药物分子进行高维语义编码,从而在序列层面提取丰富的上下文语义表示。为了进一步提高语义信息提取的效率,我们设计了全局-局部协作特征提取器(GLNet)来捕捉序列内的细粒度相关特征,以及双向自适应门控交叉注意力(BiAGCA)模块,显著增强了模型感知和建模药物-蛋白质相互作用模式的能力。第二个分支采用差异化建模策略来补充物理化学信息。该分支基于RDKit[29]提取药物的结构描述符,并通过氨基酸编码生成蛋白质的基本物理化学特征。为了捕捉蛋白质序列的多层次功能模式,设计了多尺度自适应卷积模块(Adaptive MCNN);同时,集成KAA-GAT[30]网络来融合药物分子的拓扑结构和化学属性,实现结构模态的深度表示。BiAGCA模块也应用于此分支,以进一步探索药物和蛋白质在不同层次和片段间的复杂相互作用关系。最后,该框架通过多模态特征融合(MultiFusion)模块自适应地加权并整合两个分支的输出,然后将融合的高维特征输入分类器以生成最终的DTI预测结果。该框架在语义和物理化学层面实现了特征协同,为提高DTI预测的准确性和泛化能力提供了新的解决方案。本研究的主要贡献总结如下:
  • 我们提出了一个双分支协作多模态特征表征框架。LME分支利用大型语言模型获得药物和蛋白质的高维语义嵌入,而PFE分支提取它们的物理化学属性特征,从而增强了特征描述的全面性和鲁棒性。
  • 我们设计了双向自适应门控交叉注意力(BiAGCA)模块,通过动态门控和双向依赖建模精确捕捉药物和蛋白质亚单位之间的协同相互作用,解决了传统单向注意力机制中缺乏交互信息的问题。
  • 我们设计了一个具有统一集成机制的多模态特征融合模块,用于分层组合双分支特征。这增强了多源信息的协调性和特征一致性,显著提高了预测准确性和泛化能力。
  • 数据集片段

    数据集

    本研究使用了四个公共数据集进行模型训练和评估:BioSNAP[31]、DrugBank[32]、Human[33]和C. elegans[34]。BioSNAP包含4,510种药物和2,181种蛋白质的大规模相互作用数据;DrugBank包含6,655种药物和4,294种蛋白质;而Human和C. elegans数据集分别专注于蛋白质激酶研究,包含大约3,000和2,500组高质量注释样本。使用多个数据集来评估模型的

    评估标准

    在实验中,数据集被随机分为训练集、验证集和测试集,比例为7:1:2。为了评估,我们报告了五次独立运行中每个指标的平均值和标准差(std),以确保结果稳定。超参数调整。最终模型性能在独立测试集上进行了全面验证,选择了接收者操作特征曲线下面积(AUROC)、精确度-召回率曲线下面积(AUPRC)、准确率、精确度等指标

    药物-靶点共嵌入的可视化

    为了阐明该模型中嵌入表示的药物-靶点相互作用特征,本研究采用了t分布随机邻居嵌入(t-SNE)方法[41]来可视化模型生成的药物-靶点嵌入。这项分析旨在评估模型在特征空间中组织药物-靶点嵌入的能力,重点关注嵌入的可分性和聚类质量——这两个指标对于评估模型是否生成

    案例研究

    如表10所示,所提出的模型对OPRM1靶点的预测准确率为100%。特别是,正确识别了OPRM1与Morphine(DB00647,PMID: 15258596)以及Fentanyl(DB00844,PMID: 20206265)之间的特定结合相互作用。对于GABRD靶点,模型的准确率为90%,成功捕捉了其与Diazepam(DB00349,PMID: 11092429)和Zolpidem(DB01567,PMID: 10825254)的相互作用。
    为了进一步评估模型的

    解释性研究

    为了进一步阐明所提出的双向自适应门控交叉注意力(BiAGCA)在DTI预测中的潜在机制和可解释性,我们对两个代表性的药物-蛋白质复合物(PDB ID:1BOZ和6QL2)进行了案例研究。在这个可解释性实验中,将药物的SMILES表示和相应的蛋白质氨基酸序列输入到训练好的DTI模型中。通过内部的BiAGCA模块,我们明确提取了注意力

    参数敏感性分析

    参数选择对深度学习模型的性能至关重要。因此,我们对四个关键参数进行了彻底的分析:学习率、批量大小、KAA-GAT层的数量以及双向自适应门控交叉注意力模块中的头数。实验结果如图9所示。
    学习率是一个关键的超参数,影响模型的优化效率和最终性能。

    结论

    本研究提出的DBCA-DTI框架采用双分支协作架构。通过将大型语言模型(LLM)增强的语义编码分支与物理化学属性特征编码分支相结合,实现了多模态信息的深度互补性和语义对齐。此外,该框架引入了双向自适应门控交叉注意力模块,动态调整跨模态特征的重要性,增强了特征

    局限性和未来工作

    该模型尚未明确建模三维结构信息。当前的药物-蛋白质表征主要依赖于二维分子图和一维序列,这些方法可以捕捉局部化学和语义特征,但难以反映关键的分子间空间构象和非共价相互作用(如氢键、疏水性和静电相互作用)。这限制了模型的生物物理合理性和预测能力

    CRediT作者贡献声明

    Jia Peng:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法学,调查。Xiaoyu Liu:验证,项目管理,形式分析。Xiaodong Zhou:可视化,项目管理,方法学,调查。Lei Wang:监督,项目管理,资金获取。Xianyou Zhu:监督,软件,资源,项目管理,资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有