准确预测DTI和DTA是现代药物发现的基础步骤,支持新靶点的识别、化合物的优先排序以及药物的重用。DTI预测评估小分子是否与给定的蛋白质靶点结合,而DTA预测则量化这种相互作用的强度。早期的研究通常依赖湿实验室实验来回答这些问题。这些实验提供了详细的、可信的机制证据,但需要大量的时间、材料和资金。随着化学和生物学搜索空间的不断扩展,这些限制变得更加明显,使得纯实验工作流程难以扩展。这种情况推动了向计算方法的转变,计算方法旨在提高效率并扩大实际应用的范围,为大规模探索相互作用和支持药物发现早期决策提供了更加灵活的方式。
在这一转变过程中,高质量的数据集发挥了核心作用。几个公共数据库,包括DrugBank(Wishart等人,2018年)、BindingDB(Gilson等人,2016年)、ChEMBL(Mendez等人,2019年)、PDBbind(Wang等人,2005年),积累了大量的DTI对注释和实验测量的结合亲和力数据。它们不仅为模型的训练、验证和计算提供了坚实的基础,还为不同方案之间的公平和可重复比较提供了标准化的指标。丰富可靠的数据基础为后续计算方法的发展提供了可能性和验证平台。
在过去二十年里,DTI和DTA预测的研究取得了稳步进展。早期的基于相似性、基于特征、基于矩阵/张量分解和基于网络的方法为后续的算法发展奠定了基础。这些方法虽然基础,但受到手动描述符的存在和过于简化的假设的限制。为了解决这些限制,表示学习技术开始出现。像DeepAffinity(Karimi等人,2019年)、DeepDTA(Öztürk等人,2018年)、MolTrans(Huang等人,2021年)、MONN(Li等人,2020年)这样的模型表明,可以直接从原始分子序列中学习分子描述符。进一步的发展,包括图神经网络、Transformer模块和多模态集成方法(如ChemBERTa(Chithrananda等人,2020年)、ProtBERT(Brandes等人,2022年)、Evolutionary Scale Modeling(ESM)系列,已经在从大规模分子和蛋白质语料库中学习表示方面展现了强大的能力。DTI/DTA预测已经进入了一个更加通用和可转移的表示学习领域。
尽管发展迅速,DTI预测和DTA预测仍存在一些瓶颈。一个是极度稀疏且不平衡的标记相互作用数据,这限制了训练数据的多样性并增加了过拟合的风险。此外,大多数模型表现为高维的“黑箱”,无法解释或缺乏生物学真实性,使得它们难以在临床或机制研究中使用。另外,当前技术没有充分利用结构特征、生物途径和先验知识图等多模态信息,因此无法充分捕捉药物之间的相互作用。模型还受到涉及未见药物或靶点的冷启动案例的影响,而大规模预训练模型的计算成本和可扩展性进一步限制了它们的应用。所有这些挑战都突显了需要既准确又通用、可解释、快速且基于生物学的建模方法。
与之前的综述相比,我们提供了一个统一的分类,涵盖了基于相似性、基于特征、基于分解、基于网络、基于序列和基于结构的模型,以及基于大型预训练模型的方法。重要的是,我们将大规模的自我监督预训练模型视为一个独立的范式,而不仅仅是序列编码器的简单扩展。这种设计明确了监督端到端DTI和DTA预测器与基于预训练的迁移策略之间的概念边界,后者重新利用预训练的分子或蛋白质表示进行下游预测。此外,我们总结了DTI/DTA预测的实际实验考虑因素,包括常用的指标、冷启动协议以及将模型输出与生物学发现联系起来的基于证据的案例研究和可解释性分析。最后,我们进一步讨论了实际应用中的障碍,包括数据稀疏性和不平衡、可解释性、有限的多模态组合、冷启动和计算效率。通过依次检查每个项目,强调了已经取得的成就和剩余的差距。总之,这篇综述不仅仅是列举方法,它将该领域组织成一个更清晰的结构,并指出了对未来进展重要的方向。