DeepMVP:基于深度学习和高质量数据训练的翻译后修饰位点预测模型及其在变异诱导改变中的精准应用

时间:2025年8月27日
来源:Nature Methods

编辑推荐:

本研究针对当前PTM(翻译后修饰)位点预测工具在准确性和适用范围上的局限性,开发了基于深度学习的DeepMVP框架。研究人员通过系统重分析241个公共质谱数据集构建高质量PTMAtlas数据库,训练出可预测6种主要PTM类型(磷酸化、乙酰化、甲基化、泛素化、SUMO化和N-糖基化)位点的模型。该模型在独立测试中AUROC值均超过0.85,显著优于现有工具,并成功应用于鉴定致病性变异和癌症突变对PTM的影响。研究成果为理解遗传变异通过PTM调控致病的分子机制提供了新视角,相关资源已通过网络门户和Python包共享。

广告
   X   

在生命活动的精密调控网络中,蛋白质翻译后修饰(PTM)如同交响乐中的强弱记号,精确调控着蛋白质的功能、定位和相互作用。然而,当遗传变异这支"错音"闯入时,可能通过改变PTM模式导致疾病的发生。尽管科学家们已认识到PTM异常是许多疾病的重要机制,但准确预测变异如何影响PTM仍面临重大挑战——现有工具多局限于特定激酶介导的磷酸化预测,且受限于训练数据质量和数量的不足。

针对这一瓶颈,Bo Wen等研究者在《Nature Methods》发表了突破性研究成果。他们首先系统重分析了241个人类PTM富集的质谱数据集,通过严格质量控制构建了包含397,524个高置信度PTM位点的PTMAtlas数据库。基于这一宝贵资源,团队开发了DeepMVP深度学习框架,创新性地结合卷积神经网络(CNN)和双向门控循环单元(GRU),通过遗传算法优化网络结构,最终构建了能同时预测6种主要PTM类型的强大模型。

关键技术方法包括:1)使用MaxQuant软件系统重分析公共质谱数据,严格控制1%假发现率(FDR);2)开发集成10个最优模型的预测框架,采用去除离群值的平均策略提高稳健性;3)应用Shapley值分析增强模型可解释性;4)利用临床变异数据库(ClinVar)和癌症基因组图谱(TCGA)数据进行大规模验证;5)通过细胞实验和质谱技术对关键预测进行实验验证。

研究结果部分,"PTMAtlas:一个全面、高质量的PTM位点数据库"显示,通过严格质控构建的PTMAtlas在覆盖范围和数据质量上均优于现有数据库。如磷酸化位点数量是UniProt的5倍,且26%位点有超过100条谱图支持,显著提高了数据可靠性。

"基于深度学习的PTM位点预测"部分证实,DeepMVP在所有6种PTM预测中AUROC值均超过0.85,其中N-糖基化预测更达到惊人的0.98。即使严格控制序列相似性,性能依然稳定。特别值得注意的是,当应用于SARS-CoV-2蛋白质组时,模型成功预测出80%以上实验验证的磷酸化位点。

"预测变异对PTM的影响"部分展示了模型在235个文献报道的PTM-altering变异上81%的准确率。在临床蛋白质组肿瘤分析联盟(CPTAC)的两个癌症队列分析中,DeepMVP鉴定的3,365个PTM改变事件98%得到质谱数据支持,远超其他工具。

"致病性种系变异的PTM效应预测"和"体细胞突变对PTM影响的泛癌分析"两部分揭示了大量未被报道的PTM-altering变异。如SCNNIB基因的P616L变异(与Liddle综合征相关)可能通过降低T615磷酸化延长上皮钠通道表面表达;TP53的G266R变异则可能通过形成RRXS/T模体增强S269磷酸化,这为理解这些变异的致病机制提供了新视角。

这项研究的意义不仅在于提供了目前最准确的PTM位点预测工具,更开创性地建立了遗传变异与PTM调控之间的系统关联。DeepMVP和PTMAtlas已通过网络门户和Python包公开,将成为研究PTM调控机制和探索疾病治疗靶点的重要资源。未来整合蛋白质结构信息和更丰富的酶特异性数据,有望进一步提升预测精度,推动精准医学发展。正如审稿人所评价的:"这项工作在PTM预测领域树立了新标杆,为理解遗传变异的功能后果提供了全新维度。"

生物通微信公众号
微信
新浪微博


生物通 版权所有