基于AtomPair指纹结合多种机器学习算法预测PROTAC降解活性及有效E3泛素连接酶选择性

时间：2026年5月24日

来源：Journal of Molecular Graphics and Modelling

编辑推荐：

蛋白降解靶向嵌合体（PROTACs）是一类可招募靶蛋白与E3泛素连接酶、利用泛素-蛋白酶体系统（UPS）实现特异性蛋白降解的药物，因可靶向传统认为“不可成药”的蛋白而备受关注。PROTAC降解活性预测与E3泛素连接酶选择通常需在广阔化学空间中反复实验探索。为深

蛋白降解靶向嵌合体（PROTACs）是一类可招募靶蛋白与E3泛素连接酶、利用泛素-蛋白酶体系统（UPS）实现特异性蛋白降解的药物，因可靶向传统认为“不可成药”的蛋白而备受关注。PROTAC降解活性预测与E3泛素连接酶选择通常需在广阔化学空间中反复实验探索。为深化对蛋白降解机制的理解，研究人员基于AtomPair指纹构建了30种机器学习模型，其中15种用于预测PROTAC降解活性，15种用于预测有效E3泛素连接酶选择性，所有模型均在KNIME平台上完成评估。研究测试了决策树（DT）、XGBoost树集成（XGB）、树集成（TE）、概率神经网络（PNN）与逻辑回归（LR）5种算法，并结合随机采样、分层采样与合成少数类过采样技术（SMOTE）3种采样策略，对30种模型的特性进行了系统比较。在PROTAC降解活性预测中，采用分层采样的XGB模型在测试集上准确率达82.77%，Cohen’s kappa系数为0.584；五折交叉验证中受试者工作特征曲线下面积（AUC）达0.811，在精准识别活性PROTAC的蛋白降解特征方面表现更均衡可靠。在E3泛素连接酶选择性预测中，采用随机采样的XGB模型表现最优，测试集准确率达95.38%，Cohen’s kappa系数为0.910；采用SMOTE采样的XGB与TE模型在五折交叉验证中AUC达0.965，是CRBN泛素连接酶选择性预测的优选方案；采用SMOTE采样的XGB模型在VHL泛素连接酶选择性预测中五折交叉验证AUC达0.960，同样表现优异。该研究为PROTAC降解活性与有效E3泛素连接酶选择性预测提供了新视角，是推动PROTAC行为认知、促进其临床转化的重要进展。相关分析流程已开源至指定代码仓库。

该研究发表于《Journal of Molecular Graphics and Modelling》，围绕蛋白降解靶向嵌合体（PROTACs）的预测难题展开系统性工作。PROTACs是异双功能分子，可通过形成靶蛋白-PROTAC-E3泛素连接酶三元复合物，借助泛素-蛋白酶体系统（UPS）实现靶蛋白的特异性降解，目前已有一批分子进入临床研究，例如靶向cereblon（CRBN）的ER降解剂ARV-471处于乳腺癌Ⅲ期临床试验阶段，靶向von Hippel-Lindau（VHL）的ERα降解剂ERD-308也显示出强效降解活性。人类基因组编码超过600种E3泛素连接酶，但目前PROTAC开发仅集中使用CRBN、VHL等少数类型，且相同靶蛋白配体搭配不同E3泛素连接酶会产生差异显著的降解效率，E3选择与PROTAC活性的关联尚未明确，现有预测模型仍难以覆盖广泛的相互作用机制，制约了PROTAC的合理设计。

研究人员共使用了1189个经整理的PROTAC分子作为分析队列，主要关键技术方法包括：基于RDKit计算7种分子描述符与AtomPair指纹以捕获结构特征，采用随机采样、分层采样与合成少数类过采样技术（SMOTE）处理数据不平衡问题，在KNIME平台上构建并对比决策树（DT）、XGBoost树集成（XGB）、树集成（TE）、概率神经网络（PNN）、逻辑回归（LR）共5种机器学习算法的30个分类模型，通过五折交叉验证与准确率、Cohen’s kappa系数、受试者工作特征曲线下面积（AUC）等指标评估模型性能。

研究结果部分如下：

研究设计：研究人员提出一种计算学新方法，将AtomPair分子指纹与多种机器学习方法结合，用于预测PROTAC活性与E3泛素连接酶选择，流程涵盖数据整理、重复数据处理、特征计算、数据归一化、数据集划分、统计采样平衡、模型训练与评估等环节，确保PROTAC分子分布均匀。

结果与讨论：在PROTAC降解活性预测任务中，分层采样训练的XGB模型测试集准确率为82.77%，Cohen’s kappa系数为0.584，五折交叉验证AUC为0.811，可稳定识别活性PROTAC的降解特征。在E3泛素连接酶选择性预测任务中，随机采样训练的XGB模型测试集准确率达95.38%，Cohen’s kappa系数为0.910；SMOTE采样训练的XGB与TE模型针对CRBN泛素连接酶选择性预测的五折交叉验证AUC为0.965；SMOTE采样训练的XGB模型针对VHL泛素连接酶选择性预测的五折交叉验证AUC为0.960，均表现出优异的选择性区分能力。

结论：研究人员共构建30个模型，覆盖5种机器学习算法与3种采样策略的组合，证实AtomPair指纹可有效支撑PROTAC降解活性与E3泛素连接酶选择性预测。分层采样优化的XGB模型适用于降解活性预测，随机采样与SMOTE采样优化的XGB模型分别在E3泛素连接酶整体选择与亚型选择性预测中表现最佳。该研究为PROTAC理性设计提供了高效的计算工具，有助于降低实验筛选成本，推动靶向降解药物的临床开发进程。

作者贡献声明：Sanjeevi Pandiyan负责项目统筹与概念设计；Mengya Zhou负责经费获取、形式分析与数据整理；Jinsong Shao负责资源协调、项目管理、方法开发与调研；Min Yao负责结果验证、指导监督、资源支持、形式分析与数据整理；Li Wang负责可视化、验证、指导监督、项目管理、方法开发与经费获取；Yue Chen负责软件开发、资源支持、方法开发与概念设计。

数据可用性：相关KNIME分析流程已在指定开源平台公开。

利益声明：所有作者声明不存在可能影响本研究客观性的已知竞争性财务利益或个人关系。

致谢：本研究得到中国科技部外国青年人才计划（QN2022014011L）与国家自然科学基金（81873915）资助。