综述：关于药物-靶标相互作用和结合亲和力预测的统一研究：模型、表示方法及面临的挑战

时间：2026年2月13日

来源：Biotechnology Advances

编辑推荐：

本文系统综述了药物靶点相互作用（DTI）和结合亲和力（DTA）的计算预测方法发展，从早期相似性、特征驱动模型到矩阵分解、网络分析，再到基于预训练大模型的创新范式。分析指出数据稀疏、模型可解释性不足、多模态整合有限及计算成本高等挑战，并提出了未来需加强标准化数据集构建、提升模型可解释性、融合多模态信息及优化计算效率等方向。

王一克|吕静薇|夏艳|徐俊林|孟亚杰|崔菲菲|魏蕾怡|邹全|张子龙

海南大学计算机科学与技术学院，海口570228，中国

摘要

药物发现是一个复杂而系统的过程，旨在寻找能够预防或治疗特定疾病的新治疗方法。准确预测药物与靶点之间的相互作用和结合亲和力是现代药物开发的关键步骤之一。尽管传统的实验方法具有较高的准确性，但由于成本高昂、通量低以及失败率高等原因，它们难以满足当前药物开发的效率要求。相比之下，计算预测方法正逐渐成为不可或缺的辅助工具，不仅可以显著缩短研发周期和降低实验成本，还能提高候选药物筛选的成功率。本文综述了药物-靶点相互作用（DTI）和药物-靶点结合亲和力（DTA）的研究进展，并系统地回顾了相关研究成果。与现有的综述不同，我们将基于大型预训练模型的方法视为一个独立的范式，而不是将其归类为传统的序列或结构基础模型。文章首先从数据和表示的角度概述了常用的资源和方法，并明确了药物-靶点预测问题的计算定义。在此基础上，我们总结了计算模型的发展路径，从早期的相似性和特征驱动模型，到矩阵分解、网络分析、序列和结构建模，再到近年来出现的大规模预训练模型，形成了一个相对完整的技术演变路径。文章还总结了实验层面的经验，如评估指标的选择、冷启动场景的处理、案例设计以及模型可解释性的分析。最后，我们总结了关键挑战并指出了未来研究的几个方向。

引言

准确预测DTI和DTA是现代药物发现的基础步骤，支持新靶点的识别、化合物的优先排序以及药物的重用。DTI预测评估小分子是否与给定的蛋白质靶点结合，而DTA预测则量化这种相互作用的强度。早期的研究通常依赖湿实验室实验来回答这些问题。这些实验提供了详细的、可信的机制证据，但需要大量的时间、材料和资金。随着化学和生物学搜索空间的不断扩展，这些限制变得更加明显，使得纯实验工作流程难以扩展。这种情况推动了向计算方法的转变，计算方法旨在提高效率并扩大实际应用的范围，为大规模探索相互作用和支持药物发现早期决策提供了更加灵活的方式。

在这一转变过程中，高质量的数据集发挥了核心作用。几个公共数据库，包括DrugBank（Wishart等人，2018年）、BindingDB（Gilson等人，2016年）、ChEMBL（Mendez等人，2019年）、PDBbind（Wang等人，2005年），积累了大量的DTI对注释和实验测量的结合亲和力数据。它们不仅为模型的训练、验证和计算提供了坚实的基础，还为不同方案之间的公平和可重复比较提供了标准化的指标。丰富可靠的数据基础为后续计算方法的发展提供了可能性和验证平台。

在过去二十年里，DTI和DTA预测的研究取得了稳步进展。早期的基于相似性、基于特征、基于矩阵/张量分解和基于网络的方法为后续的算法发展奠定了基础。这些方法虽然基础，但受到手动描述符的存在和过于简化的假设的限制。为了解决这些限制，表示学习技术开始出现。像DeepAffinity（Karimi等人，2019年）、DeepDTA（Öztürk等人，2018年）、MolTrans（Huang等人，2021年）、MONN（Li等人，2020年）这样的模型表明，可以直接从原始分子序列中学习分子描述符。进一步的发展，包括图神经网络、Transformer模块和多模态集成方法（如ChemBERTa（Chithrananda等人，2020年）、ProtBERT（Brandes等人，2022年）、Evolutionary Scale Modeling（ESM）系列，已经在从大规模分子和蛋白质语料库中学习表示方面展现了强大的能力。DTI/DTA预测已经进入了一个更加通用和可转移的表示学习领域。

尽管发展迅速，DTI预测和DTA预测仍存在一些瓶颈。一个是极度稀疏且不平衡的标记相互作用数据，这限制了训练数据的多样性并增加了过拟合的风险。此外，大多数模型表现为高维的“黑箱”，无法解释或缺乏生物学真实性，使得它们难以在临床或机制研究中使用。另外，当前技术没有充分利用结构特征、生物途径和先验知识图等多模态信息，因此无法充分捕捉药物之间的相互作用。模型还受到涉及未见药物或靶点的冷启动案例的影响，而大规模预训练模型的计算成本和可扩展性进一步限制了它们的应用。所有这些挑战都突显了需要既准确又通用、可解释、快速且基于生物学的建模方法。

与之前的综述相比，我们提供了一个统一的分类，涵盖了基于相似性、基于特征、基于分解、基于网络、基于序列和基于结构的模型，以及基于大型预训练模型的方法。重要的是，我们将大规模的自我监督预训练模型视为一个独立的范式，而不仅仅是序列编码器的简单扩展。这种设计明确了监督端到端DTI和DTA预测器与基于预训练的迁移策略之间的概念边界，后者重新利用预训练的分子或蛋白质表示进行下游预测。此外，我们总结了DTI/DTA预测的实际实验考虑因素，包括常用的指标、冷启动协议以及将模型输出与生物学发现联系起来的基于证据的案例研究和可解释性分析。最后，我们进一步讨论了实际应用中的障碍，包括数据稀疏性和不平衡、可解释性、有限的多模态组合、冷启动和计算效率。通过依次检查每个项目，强调了已经取得的成就和剩余的差距。总之，这篇综述不仅仅是列举方法，它将该领域组织成一个更清晰的结构，并指出了对未来进展重要的方向。