综述:关于药物-靶标相互作用和结合亲和力预测的统一研究:模型、表示方法及面临的挑战

时间:2026年2月13日
来源:Biotechnology Advances

编辑推荐:

本文系统综述了药物靶点相互作用(DTI)和结合亲和力(DTA)的计算预测方法发展,从早期相似性、特征驱动模型到矩阵分解、网络分析,再到基于预训练大模型的创新范式。分析指出数据稀疏、模型可解释性不足、多模态整合有限及计算成本高等挑战,并提出了未来需加强标准化数据集构建、提升模型可解释性、融合多模态信息及优化计算效率等方向。

广告
   X   

王一克|吕静薇|夏艳|徐俊林|孟亚杰|崔菲菲|魏蕾怡|邹全|张子龙
海南大学计算机科学与技术学院,海口570228,中国

摘要

药物发现是一个复杂而系统的过程,旨在寻找能够预防或治疗特定疾病的新治疗方法。准确预测药物与靶点之间的相互作用和结合亲和力是现代药物开发的关键步骤之一。尽管传统的实验方法具有较高的准确性,但由于成本高昂、通量低以及失败率高等原因,它们难以满足当前药物开发的效率要求。相比之下,计算预测方法正逐渐成为不可或缺的辅助工具,不仅可以显著缩短研发周期和降低实验成本,还能提高候选药物筛选的成功率。本文综述了药物-靶点相互作用(DTI)和药物-靶点结合亲和力(DTA)的研究进展,并系统地回顾了相关研究成果。与现有的综述不同,我们将基于大型预训练模型的方法视为一个独立的范式,而不是将其归类为传统的序列或结构基础模型。文章首先从数据和表示的角度概述了常用的资源和方法,并明确了药物-靶点预测问题的计算定义。在此基础上,我们总结了计算模型的发展路径,从早期的相似性和特征驱动模型,到矩阵分解、网络分析、序列和结构建模,再到近年来出现的大规模预训练模型,形成了一个相对完整的技术演变路径。文章还总结了实验层面的经验,如评估指标的选择、冷启动场景的处理、案例设计以及模型可解释性的分析。最后,我们总结了关键挑战并指出了未来研究的几个方向。

引言

准确预测DTI和DTA是现代药物发现的基础步骤,支持新靶点的识别、化合物的优先排序以及药物的重用。DTI预测评估小分子是否与给定的蛋白质靶点结合,而DTA预测则量化这种相互作用的强度。早期的研究通常依赖湿实验室实验来回答这些问题。这些实验提供了详细的、可信的机制证据,但需要大量的时间、材料和资金。随着化学和生物学搜索空间的不断扩展,这些限制变得更加明显,使得纯实验工作流程难以扩展。这种情况推动了向计算方法的转变,计算方法旨在提高效率并扩大实际应用的范围,为大规模探索相互作用和支持药物发现早期决策提供了更加灵活的方式。
在这一转变过程中,高质量的数据集发挥了核心作用。几个公共数据库,包括DrugBank(Wishart等人,2018年)、BindingDB(Gilson等人,2016年)、ChEMBL(Mendez等人,2019年)、PDBbind(Wang等人,2005年),积累了大量的DTI对注释和实验测量的结合亲和力数据。它们不仅为模型的训练、验证和计算提供了坚实的基础,还为不同方案之间的公平和可重复比较提供了标准化的指标。丰富可靠的数据基础为后续计算方法的发展提供了可能性和验证平台。
在过去二十年里,DTI和DTA预测的研究取得了稳步进展。早期的基于相似性、基于特征、基于矩阵/张量分解和基于网络的方法为后续的算法发展奠定了基础。这些方法虽然基础,但受到手动描述符的存在和过于简化的假设的限制。为了解决这些限制,表示学习技术开始出现。像DeepAffinity(Karimi等人,2019年)、DeepDTA(Öztürk等人,2018年)、MolTrans(Huang等人,2021年)、MONN(Li等人,2020年)这样的模型表明,可以直接从原始分子序列中学习分子描述符。进一步的发展,包括图神经网络、Transformer模块和多模态集成方法(如ChemBERTa(Chithrananda等人,2020年)、ProtBERT(Brandes等人,2022年)、Evolutionary Scale Modeling(ESM)系列,已经在从大规模分子和蛋白质语料库中学习表示方面展现了强大的能力。DTI/DTA预测已经进入了一个更加通用和可转移的表示学习领域。
尽管发展迅速,DTI预测和DTA预测仍存在一些瓶颈。一个是极度稀疏且不平衡的标记相互作用数据,这限制了训练数据的多样性并增加了过拟合的风险。此外,大多数模型表现为高维的“黑箱”,无法解释或缺乏生物学真实性,使得它们难以在临床或机制研究中使用。另外,当前技术没有充分利用结构特征、生物途径和先验知识图等多模态信息,因此无法充分捕捉药物之间的相互作用。模型还受到涉及未见药物或靶点的冷启动案例的影响,而大规模预训练模型的计算成本和可扩展性进一步限制了它们的应用。所有这些挑战都突显了需要既准确又通用、可解释、快速且基于生物学的建模方法。
与之前的综述相比,我们提供了一个统一的分类,涵盖了基于相似性、基于特征、基于分解、基于网络、基于序列和基于结构的模型,以及基于大型预训练模型的方法。重要的是,我们将大规模的自我监督预训练模型视为一个独立的范式,而不仅仅是序列编码器的简单扩展。这种设计明确了监督端到端DTI和DTA预测器与基于预训练的迁移策略之间的概念边界,后者重新利用预训练的分子或蛋白质表示进行下游预测。此外,我们总结了DTI/DTA预测的实际实验考虑因素,包括常用的指标、冷启动协议以及将模型输出与生物学发现联系起来的基于证据的案例研究和可解释性分析。最后,我们进一步讨论了实际应用中的障碍,包括数据稀疏性和不平衡、可解释性、有限的多模态组合、冷启动和计算效率。通过依次检查每个项目,强调了已经取得的成就和剩余的差距。总之,这篇综述不仅仅是列举方法,它将该领域组织成一个更清晰的结构,并指出了对未来进展重要的方向。

数据来源

准确和全面的数据资源是有效DTI预测的基础。这些资源通过提供已知的药物-靶点对、化学结构信息和靶点蛋白质的生物学特性,支持计算模型的开发、训练和评估。值得注意的是,许多DTI数据集也可以扩展到DTA预测任务,因为连续的结合亲和力数据可以使用适当的阈值进行二值化。在本节中,我们对

计算方法的发展

由于模型架构的多样化和算法范式的快速发展,预测DTI和DTA的计算方法取得了显著进步。如图2所示,大多数现有方法遵循三阶段流程:(i) 从开源数据库(例如DrugBank)提取相互作用数据;(ii) 将药物和蛋白质表示为机器可读的形式;(iii) 使用在

评估指标

评估指标提供了量化衡量AI驱动的DTI预测方法性能的手段,这些方法被分为分类和回归任务,每种任务使用不同的评估指标。常用的分类任务评估指标包括以下内容:
  • 准确性:准确性衡量整个数据集中正确预测的比例:
准确性=TP+TNTP+TN+FP+FN
  • 精确度:精确度衡量所有正确预测的阳性结果中的比例

挑战与未来方向

尽管DTI和DTA预测取得了稳步进展,但可用数据的质量和广度仍然对模型性能构成了明显限制,这与之前总结的多个模型家族的局限性一致。基于相似性和基于网络的方法依赖于信息丰富的邻域和图连通性,因此当罕见靶点具有较少的已知相互作用且相互作用图稀疏时,它们的性能往往会下降。基于特征的和基于序列的模型

结论与展望

在过去二十年里,DTI和DTA预测的研究从早期的基于相似性的方法发展到深度学习和大型预训练模型。尽管该领域取得了明显进展,但在实际应用中仍存在局限性,如数据稀疏性、数据集偏差、对未见药物或靶点的泛化能力弱、可解释性有限以及大型模型的高计算成本等问题。未来的进展将依赖于更好和更标准化的数据集。

伦理声明

作者声明没有竞争利益。

伦理批准

本手稿中的研究不需要伦理声明。不包含对动物或人类受试者的实验。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了ChatGPT来完善手稿的清晰度、连贯性和整体表达能力。使用该工具/服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。

资助

该工作得到了国家自然科学基金(编号:62450002)的支持。

未引用的参考文献

Chen等人,2024b
He等人,2025b
Huang等人,2026
Li等人,2021b

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

生物通微信公众号
微信
新浪微博


生物通 版权所有