药物发现是当代生物医学研究的一个关键焦点[1]。预测药物-靶点相互作用(DTIs)[2]是药物开发流程中的关键步骤,可以显著缩短开发周期并降低研发成本[3]。传统的体外实验方法由于耗时较长且费用较高,因此在大规模应用中的可扩展性有限。目前,计算筛选潜在的DTI候选物已被验证为帮助生物学家识别真实DTIs的有效策略。这些计算方法能够辨别高置信度的DTIs,从而大大缩小候选药物分子的范围[4]。因此,近年来计算方法受到了越来越多的关注,并取得了显著的进展[5]。基于结构的虚拟筛选(SBVS)通常依赖于分子对接模拟[6, 7],这通常需要目标蛋白质的三维(3D)结构。尽管实验结构可能无法获得,但计算方法(如同源建模和最近的基于深度学习的预测器,例如AlphaFold2)可以提供结构模型,以实现基于对接的筛选。然而,分子对接方法的效率相对较低,因为计算需求较高,导致处理速度慢,且其评分函数的准确性有限。相比之下,基于配体的虚拟筛选(LBVS)依赖于根据已知生物活性化合物预测新的活性分子,但在已知活性分子数量不足时性能不佳。总体而言,这些传统方法存在显著的局限性。
近年来,基于机器学习的方法在计算DTI预测方面取得了快速进展[8, 9]。作为机器学习的一个关键分支,深度学习在DTI预测方面也取得了显著进展[10],使得在更短的时间内能够进行大规模验证。早期研究人员使用了手工制作的药物和蛋白质描述符,并利用全连接神经网络(FCNs)进行预测。随后,Lee等人提出了DeepConv-DTI[11],该方法使用卷积神经网络(CNNs)提取蛋白质特征,并采用扩展的连接性指纹(ECFP)算法计算药物特征,最终通过FCN生成预测结果。然而,这种方法忽略了药物-蛋白质对的相互作用特征。此外,SAG-DTA[12]和DrugVQA[13]中采用的先进特征提取技术(如DynCNN模块)突显了优化特征提取方法的持续努力。近年来,图神经网络(GNNs)在解决生物信息学中的关键预测挑战方面表现出色,因为它们具有强大的特征表示学习能力。为了从药物分子中提取拓扑信息,Nguyen等人开发了GraphDTA[14],这是一个基于GNN的框架,它将药物表示为分子图,利用GNNs和CNNs分别提取药物和蛋白质特征以进行药物-靶点亲和力(DTA)预测。MMF-MCP模型[15]通过多模态信息融合技术无缝地促进了分子图特征、分子指纹特征和分子图像特征的融合。尽管采用了增强的特征提取模块,但这种方法忽略了分子间相互作用主要集中在药物和蛋白质的相关亚结构上这一关键事实。此外,简单地将药物和蛋白质特征连接起来无法捕捉它们之间的复杂相互作用。为了更精确地模拟药物-蛋白质相互作用,一些研究将注意力机制(AM)纳入了DTI预测中。目前,AM已被广泛用于揭示不同药物或靶点成分对相互作用的贡献,并表征靶点和药物之间的相互作用模式[16]。Zhao等人[17]提出了HyperAttentionDTI,它基于CNN为每个原子和氨基酸分配注意力向量以增强特征表示;尽管这种方法考虑了药物和蛋白质之间的相互作用表示,但CNN的有限接收场限制了其捕捉全局依赖性的能力。受到Transformer捕捉序列间特征的强大能力的启发,Chen等人提出了TransformerCPI[18],它利用Transformer架构从药物SMILES和蛋白质氨基酸序列预测DTI。同样,Huang等人引入了MolTrans[19],应用Transformer提取药物亚结构和蛋白质序列的特征,然后将其组合成相互作用图以预测化合物-蛋白质相互作用;然而,这种方法主要关注药物和蛋白质亚结构之间的相互作用特征,而忽略了利用原始特征信息的重要性。
DTI预测的第二个重大进展涉及通过将分析分为领域内(训练集和测试集具有相似描述符)和跨领域场景来评估化合物-蛋白质对的相似性。在领域内条件下,由于描述符的均匀性,模型可以有效地利用先验知识。相反,当描述符存在显著差异时,需要进行跨领域分析,这对传统的基于相似性的预测模型提出了重大挑战。为了解决这一挑战,Bai等人提出了DrugBAN[20],它使用双线性注意力机制捕获药物和靶点之间的局部相互作用表示以进行DTI预测。对于跨领域预测任务,DrugBAN引入了条件对抗领域适应(CDAN)[21],以将知识从源领域转移到目标领域,显示出出色的跨领域泛化能力。后续研究进一步整合了LSTM-CNN混合模型[22]、结合深度学习框架,并开发了包含领域适应模块的模型以应对跨领域化合物-蛋白质相互作用(CPI)预测挑战[23]。这种能力对于提高模型的泛化能力至关重要,特别是在适应注释数据有限的跨领域测试集时。
尽管取得了这些进展,现有的基于深度学习的方法仍然存在局限性。第一个局限性是特征提取和相互作用建模的不足。许多先前的研究采用了简单的特征融合方法,忽略了关键的局部相互作用。药物和靶点之间的相互作用尤其与其亚结构相关;因此,单独的全局表示学习往往限制了模型的能力和预测性能。第二个局限性是,虽然传统模型在领域内表现良好,但其在跨领域场景中的泛化能力显著下降,这成为评估模型实用性的一个关键瓶颈。为了解决这些局限性,我们提出了一个基于领域对抗门控双线性注意力网络(GBAN-DA)的深度学习模型,这是一个新颖的框架,旨在:(1)使用增强的编码器提取更具区分性的药物和蛋白质特征;(2)通过门控双线性注意力机制显式地模拟细粒度的DTI;(3)通过集成的条件领域对抗适应实现强大的跨领域泛化。对于药物表示,我们首先使用GCNs(图卷积网络)[24]对二维分子图中的局部信息进行编码。然后通过特征增强模块[25]增强这些特征,该模块结合了通道和空间注意力机制。对于蛋白质表示,我们使用结合CNNs和Transformer的混合编码器来克服现有模型无法充分捕获全局上下文的局限性,同时保留局部序列特征。该编码器同时提取局部基序并结合全局上下文信息,然后通过专用的特征融合模块[26]融合结果特征。然后将编码的局部表示输入到门控双线性注意力网络(GBAN)[27]中以学习成对相互作用模式。这些联合表示通过全连接层进行解码,以进行最终的DTI预测。为了提高跨领域的泛化能力,我们整合了CDAN以实现从源领域到目标领域的知识转移。针对多个场景对八种最先进方法的全面评估证明了我们框架的一致最优性能。总体而言,GBAN-DA解决了DTI预测的三个关键方面:增强的特征学习、细粒度的相互作用建模和强大的跨领域泛化。此外,GBAN-DA的实际效用和鲁棒性通过全面的实验和现实世界案例研究得到了严格验证。在领域内基准测试中,GBAN-DA在BindingDB上的AUROC/AUPRC得分分别为0.964/0.950,在BioSNAP上的得分分别为0.909/0.905,显著优于八个强大的基线模型。更重要的是,在具有挑战性的冷对分割测试中——即在训练期间药物和靶点都不可见的情况下——我们的模型在Human数据集上保持了0.861的高AUROC,显示出对新的药物-靶点对的强大泛化能力。在跨领域场景中,条件领域对抗网络(CDAN)的整合带来了显著的改进,在BindingDB上的AUROC提高了11.9%,在BioSNAP上的AUROC提高了12.9%。这些结果通过针对高价值目标(如ABL1激酶(P00519)和Cathepsin K P43235)的案例研究得到了进一步证实,其中排名靠前的预测(例如,DB16185的预测得分为0.9998)通过分子对接得到了实验验证,显示出强烈的结合亲和力和新的相互作用模式。通过有效弥合领域内准确性和跨领域适应性之间的差距,GBAN-DA建立了一个强大、可扩展且可解释的框架,对于加速药物再利用、多药理学分析和真实世界药物发现具有重大潜力。