基于图算法的非经典多肽鉴定工具moPepGen的开发与应用

时间:2025年6月17日
来源:Nature Biotechnology

编辑推荐:

本研究针对蛋白质组学中非经典多肽(non-canonical peptides)鉴定难题,开发了图算法工具moPepGen。该工具通过整合基因组变异、RNA编辑、环状RNA等复杂转录本信息,首次实现线性时间内全组合变异肽段的系统性预测。在人类癌症、小鼠模型及多蛋白酶实验中验证显示,其较现有方法灵敏度提升53.7±12.2%,成功鉴定出KRAS、TP53等关键癌基因的变异肽段及184个非编码ORF(开放阅读框)产物,为肿瘤新抗原发现和蛋白质组注释提供了突破性技术。

广告
   X   

蛋白质组学研究长期面临一个核心挑战:单个DNA序列可通过遗传变异、RNA剪接、RNA环化等机制产生大量非经典蛋白质变体(proteoforms),但现有质谱技术难以全面捕获这些变异。传统方法如从头测序(de novo sequencing)和开放搜索(open search)存在计算成本高、假阴性率高等缺陷,而基于参考数据库的策略又受限于变异组合的指数级复杂性。这种技术瓶颈严重阻碍了癌症新抗原发现、非编码RNA功能研究等关键领域的发展。

为突破这一限制,由Paul C. Boutros和Thomas Kislinger领衔的国际团队在《Nature Biotechnology》发表了创新性研究成果。研究人员开发了moPepGen——首个基于图论的多组学肽段生成算法,通过三级图模型(转录本变异图TVG、肽段变异图PVG、肽段切割图PCG)实现了变异肽段的系统性枚举。该工具在人类癌症细胞系、前列腺肿瘤和小鼠模型中验证显示,其不仅能高效整合单核苷酸变异(SNV)、插入缺失(indel)等DNA变异,还可解析RNA编辑、基因融合、环状RNA(circRNA)等复杂转录事件产生的非经典肽段。

关键技术方法包括:1)建立三级图算法模型处理变异组合;2)开发基因变异格式GVF统一多组学数据输入;3)采用模糊测试(fuzz testing)验证算法准确性;4)整合7种蛋白酶消化策略增强非编码ORF检测;5)结合Prosit预测质谱验证肽段可靠性。研究使用375株癌症细胞系(CCLE)、8例肾透明细胞癌(ccRCC)和5例前列腺癌的匹配多组学数据进行验证。

核心研究发现
算法性能验证
通过百万次模拟测试证实moPepGen具有线性时间复杂度(4.7×10-3
秒/变异),较暴力算法提升三个数量级。在人类种系多态性分析中,仅用3.2小时即完成15GB数据运算,而传统方法无法完成相同任务。

非经典肽段鉴定
在癌症细胞系中平均检测到39±27个非经典肽段/样本,其中非编码ORF来源占比达62%。关键案例包括:

  • 发现SYNPO2基因同时携带缺失和SNV的复合变异肽段(图1d)
  • 验证AHNAK基因体细胞突变D1249N在DNA、RNA和蛋白质三个层面的共现(图1e-i)
  • 鉴定出MET、STK11等驱动基因的融合肽段(Extended Data Fig.6g-h)

跨物种应用
在小鼠C57BL/6N品系中,成功检测到343个非编码ORF肽段和18个编码基因变异肽段(Extended Data Fig.5b-d),证明算法在模式生物中的普适性。

临床样本突破
在前列腺癌中发现:

  • 9个基因存在环状RNA翻译产物(如MYH10 exon29-exon24融合肽,Extended Data Fig.9g)
  • PSA(KLK3基因)携带双变异肽段
  • 4个色氨酸-苯丙氨酸替代(W>F)修饰肽

研究意义
moPepGen通过三大创新重新定义了蛋白质组学分析范式:1)首次实现全组合变异肽段的线性时间枚举,解决了传统方法组合爆炸难题;2)建立多组学整合框架,统一处理从DNA变异到RNA环化的复杂事件;3)实验验证涵盖多癌种、多技术平台(DIA-MS、TMT标记等),证明其临床转化潜力。该工具已开源(GPL-2.0),为肿瘤免疫治疗靶点筛选、罕见变异功能研究提供了不可替代的技术支撑。

研究同时揭示了若干生物学新发现:非编码ORF的广泛翻译活性、circRNA的重复翻译框架、以及W>F替代的普遍存在,这些发现将推动对"暗蛋白质组"(dark proteome)的重新认知。正如作者强调:"moPepGen不仅是一个计算工具,更为理解基因表达的复杂层级打开了新窗口。"

生物通微信公众号
微信
新浪微博


生物通 版权所有