在药物研发领域,准确预测药物与靶标蛋白之间的相互作用(DTI)是加速新药发现和药物重定位的关键。然而,传统实验方法耗时昂贵,而计算模型又面临多重挑战:如何有效整合药物的分子结构、靶标的氨基酸序列以及已知相互作用网络中的关系信息?如何在面对全新药物或靶标(即“冷启动”场景)时仍能保持可靠的预测能力?现有方法往往仅侧重单一或双模态数据,未能充分挖掘多源信息之间的互补性,导致预测精度和泛化能力受限。
为了突破这些瓶颈,研究人员在《Briefings in Bioinformatics》上发表了题为“TriDTI: Multimodal representation learning via triple-branch alignment and cross-attention for drug–target interaction prediction”的研究论文,提出了一种名为TriDTI的创新框架。该研究通过巧妙融合结构、序列和关系三大模态的特征,并引入对比学习与交叉注意力机制,实现了DTI预测性能的显著提升。
研究团队采用了几项关键技术方法来构建TriDTI模型。首先,他们从三个维度提取药物和靶标的特征:使用图同构网络(GIN)和卷积神经网络(CNN)分别学习药物的分子图拓扑结构和局部空间特征;利用预训练语言模型ChemBERTa和ESM2分别编码药物的SMILES字符串和靶标的氨基酸序列的语义信息;通过图注意力网络(GATv2)从药物-靶标相互作用网络中挖掘关系特征。其次,他们设计了一种三模态对比学习策略,通过在共享潜空间中对齐不同模态的表示,增强了模型学习一致性和判别性特征的能力。最后,他们采用了一种双向交叉注意力融合模块,动态地捕捉药物与靶标特征之间的相互依赖关系,并自适应地加权整合多模态信息。模型在DAVIS、BioSNAP和DrugBank这三个公开基准数据集上进行了严格的五折交叉验证,并设置了未见药物、未见靶标和未见相互作用对三种冷启动场景来评估泛化能力。
多模态特征提取与表示学习
研究首先分别从结构、序列和关系三个模态学习药物和靶标的深层表示。对于药物,其分子图通过GIN学习原子间的连接关系,同时通过CNN捕获子结构模式;其SMILES序列经由ChemBERTa转化为富含化学语义的嵌入。对于靶标,其氨基酸序列通过强大的蛋白质语言模型ESM2编码,捕捉进化信息和空间结构偏好;其所在的蛋白质-蛋白质相互作用(PPI)网络则通过GATv2聚合邻居信息,获取功能背景。结果表明,这种多角度、细粒度的特征提取方式为后续的融合与预测奠定了坚实基础。
模态对齐与对比学习
为了解决异构模态数据间的分布差异问题,研究引入了对比学习目标。通过将同一实体(药物或靶标)的不同模态表示(例如,药物的结构图特征与其SMILES序列特征)拉近,而将不同实体的同类表示推远,模型在共享的潜空间中实现了模态间的语义对齐。分析显示,经过对比学习对齐后的特征空间,其类别区分度更高,嵌入分布更清晰,这直接提升了模型在冷启动场景下的鲁棒性。
注意力机制与特征融合
TriDTI的核心创新在于其多层次的特征融合策略。首先,使用软注意力网络为每个模态的特征分配自适应的权重,实现模态内的特征选择。然后,通过双向交叉注意力模块,让药物特征能够“关注”与其最相关的靶标特征子集,反之亦然,从而模拟真实的分子识别过程。这种交互式融合机制使得模型能够聚焦于对预测相互作用最关键的信息,而非简单拼接特征。消融实验证实,无论是软注意力还是交叉注意力模块,都对最终性能有显著贡献。
性能评估与比较
在三个基准数据集上的大量实验表明,TriDTI在AUROC、AUPRC、F1分数和准确率等指标上均一致优于包括TransformerCPI、MGraphDTA、HyperAttentionDTI在内的多种当前最先进的DTI预测模型。例如,在DAVIS数据集上,TriDTI取得了0.9391的AUROC和0.7605的AUPRC。更重要的是,在更具挑战性的冷启动场景下,TriDTI展现了卓越的泛化能力。在“未见药物”和“未见靶标”设置下,其性能下降幅度远小于基线模型,证明其通过学习到的稳健多模态表示,能够有效推断新实体间的相互作用。
模型可解释性分析
研究人员还通过t-SNE可视化等技术对模型内部表示进行了分析。结果显示,经过对比学习对齐后的联合嵌入空间中,已知的相互作用对和非相互作用对形成了更清晰的聚类,表明模型学习到了有意义的判别性特征。此外,对交叉注意力权重的分析可以揭示在预测特定药物-靶标对时,模型所关注的关键分子子结构或蛋白质功能域,这为理解相互作用的潜在机制提供了线索,增强了模型的可解释性。
综上所述,TriDTI研究通过系统性地整合结构、序列和关系三模态信息,并利用对比学习和交叉注意力机制进行深度融合,显著提升了DTI预测的准确性和鲁棒性。该工作不仅提出了一个高性能的计算模型,更重要的是为多模态生物医学数据融合提供了一种行之有效的范式。其成功实践表明,充分挖掘并协同利用不同来源、不同形态的生物医学数据,是解决复杂生物问题(如DTI预测)的关键途径。TriDTI框架对于加速药物发现进程、特别是在应对新药研发中的“冷启动”难题方面具有重要的理论意义和实际应用价值。
打赏