整合碰撞、电子与光子裂解技术的集成质谱平台:基于统一深度学习模型的蛋白组覆盖度提升新策略

时间:2026年3月24日
来源:Nature Methods

编辑推荐:

本文介绍了一种集成化的质谱平台,该平台可自动化运行碰撞诱导解离(CID)、电子解离(ExD,如ECD/EID)和紫外光解离(UVPD)等多种裂解技术。为应对CID在分析翻译后修饰和复杂蛋白质形态方面的局限性,研究人员利用多酶深度蛋白质组学工作流程生成数据集,训练了一个统一的Prosit深度学习模型,该模型可预测所有裂解方法的谱图。此公开模型被整合到FragPipe的MSBooster模块中,平均将数据依赖性和数据非依赖性采集的蛋白质鉴定数提升了超过10%。研究表明,电子诱导和紫外光解离等替代方法可产生更丰富、信息量更大的谱图,在提供更优序列覆盖度的同时,实现了与CID相当的鉴定效率。此项工作为高级裂解技术在标准蛋白质组学流程中的常规应用建立了框架。

广告
   X   

在生命科学的微观世界里,蛋白质是执行几乎所有生物学功能的“主力军”。要想透彻理解生命过程与疾病机制,我们必须能精准、高效地“看清”这些蛋白质的组成、修饰和相互作用,这就是蛋白质组学的核心任务。而质谱,正是我们窥探蛋白质世界的“超级显微镜”。目前,自下而上的蛋白质组学主要依赖碰撞诱导解离(CID)技术来获取肽段的序列信息。CID因其优异的灵敏度、速度和可重复性,已成为肽段测序的“金标准”,甚至推动了单细胞蛋白质组学的发展。然而,CID并非万能。它在分析某些翻译后修饰(如磷酸化、糖基化)和复杂的蛋白质变体时,存在“软肋”——这些对碰撞敏感的修饰可能在裂解过程中丢失,导致关键信息缺失。
为了弥补CID的不足,科学家们开发了多种替代性裂解技术。例如,利用紫外光子的紫外光解离(UVPD),以及利用电子的各种电子解离技术(统称ExD,包括电子捕获解离ECD、电子诱导解离EID等)。这些技术通过不同的能量传递方式断裂肽键,能产生更丰富、更互补的碎片离子,有助于保留不稳定的修饰并提供更完整的序列覆盖度。尽管潜力巨大,但这些先进技术却陷入了“先有鸡还是先有蛋”的困境:由于应用不广,仪器厂商对其开发投入不足,导致设备复杂、效率较低;反过来,孱弱的软件分析工具支持(尤其是缺乏针对这些技术的深度学习预测模型)又进一步阻碍了它们的广泛应用。如何打破这一僵局,让这些强大的“备用武器”也能在常规蛋白质组学分析中发挥威力,成为了领域内亟待解决的挑战。
近期发表于《Nature Methods》的一项研究,为这一难题提供了令人振奋的解决方案。来自慕尼黑工业大学等机构的研究团队,成功开发了一个集成化的质谱平台,并训练了一个统一的深度学习模型,将多种先进裂解技术无缝融入标准工作流程,显著提升了蛋白质组的鉴定深度和数据分析质量。
研究人员开展这项研究主要应用了以下几个关键技术方法:首先,他们构建并优化了Orbitrap-Omnitrap混合质谱平台,使其能够在液相色谱-质谱(LC-MS)时间尺度上,自动化、高速地执行CID、UVPD、ECD和EID等多种裂解技术。其次,他们利用五种蛋白酶(胰蛋白酶、LysC、GluC、糜蛋白酶、LysN)对Expi293F人细胞裂解液进行深度酶切,并结合高pH反相离线分馏,生成了大规模、多样化的肽段数据集,用于系统评估和比较不同裂解技术的性能。最后,基于这些高质量数据集,他们采用经过修改的Prosit深度学习架构,训练了一个名为“Prosit_2025_intensity_MultiFrag”的统一模型。该模型能够仅根据肽段序列、电荷和裂解方法,精准预测ECD、EID、HCD和UVPD产生的多种碎片离子(如a, b, c, x, y, z及其变体)的强度。
结果
Development of Omnitrap UVPD, ECD and EID LC-MS methods
研究人员首先在Orbitrap-Omnitrap平台上优化了UVPD、EID和ECD用于自下而上蛋白质组学LC-MS分析的参数。通过调整激光脉冲数、能量(UVPD)以及电子辐照时间(EID, ECD),他们确定了在保证扫描速度的前提下,能最大化肽段-谱图匹配(PSM)鉴定数的实验条件。例如,对于UVPD,使用4个脉冲、每个脉冲6 mJ的能量;对于EID和ECD,50 ms的辐照时间被证明是最优的。
Large-scale multi-enzyme LC-MS analysis
随后,研究团队利用五种蛋白酶结合深度分馏,对Expi293F细胞裂解物进行了大规模的LC-MS分析,比较了ECD、EID、UVPD和HCD(高能碰撞解离)的性能。研究发现,虽然不同技术产生的特征碎片离子不同(如ECD主要产生c, z离子;EID和UVPD以b, y离子为主,但伴随更多样的a, c, x, z离子),但它们的肽段测序效率(鉴定PSM数/总MS2谱图数)令人惊喜地相似,甚至ECD的效率(30.3%)略高于HCD(24.9%)、EID(24.8%)和UVPD(25.6%)。这表明替代裂解技术有能力在通量上与CID竞争。
Deep learning modeling of UVPD, EID and ECD fragment intensities
利用上述大规模实验数据,研究人员训练了一个统一的Prosit深度学习模型来预测碎片离子强度。该模型以肽段序列、前体电荷和裂解方法为输入,可预测包括a, a+1, b, c, c-1, x, x+1, y, z, z+1在内的多达815种碎片离子的强度。模型在测试集上表现出色,预测谱图与实验谱图的皮尔逊相关系数中位数很高(HCD: 0.945, UVPD: 0.926, ECD: 0.914, EID: 0.892),并且能根据不同裂解方法准确地分配相应的特征离子强度。
Rescoring of alternative fragmentation data using fragment intensity predictions
将新开发的Prosit模型整合到Oktoberfest重打分框架和FragPipe的MSBooster模块后,研究团队用其对ECD、EID、UVPD和HCD数据进行了重打分分析。结果表明,利用预测的碎片离子强度进行重打分,能极大地改善数据库搜索结果的质量。与传统的仅基于离子存在/缺失的搜索相比,重打分后目标PSM与诱饵PSM的得分分布分离更明显,在严格的1% PSM水平错误发现率(FDR)下,能够恢复更多原本可能被遗漏的真实阳性PSM。例如,EID和UVPD数据通过重打分回收了超过97%的可能真阳性PSM,而初始搜索仅能回收约85-87%。不同蛋白酶的数据均从中受益,其中非特异性较高的糜蛋白酶数据提升尤为显著。
Application of data-independent acquisition in all fragmentation techniques
最后,研究者将新模型应用于数据非依赖性采集(DIA)数据的分析。他们对人、拟南芥和大肠杆菌的胰蛋白酶酶切样品进行了UVPD、EID和ECD的DIA分析,并在FragPipe中利用MSBooster进行重打分。结果在所有物种的样本中均观察到了鉴定数量的提升,在PSM、肽段和蛋白质水平上,平均提升超过10%,其中EID数据的提升幅度最大(在某些样本中超过20%),再次证明了该深度学习模型对于改善各种裂解技术DIA数据分析的普适性和有效性。
结论与讨论
该研究成功地打破了先进裂解技术在蛋白质组学中应用的瓶颈。通过开发集成化的Omnitrap-Orbitrap质谱平台,研究人员证明了UVPD、EID和ECD能够在蛋白质组尺度上达到与主流HCD技术相媲美的鉴定效率和通量。更重要的是,他们利用由此产生的大规模、高质量数据集,训练出了首个能够统一预测CID、ECD、EID和UVPD谱图的深度学习模型(Prosit_2025_intensity_MultiFrag)。
这一成果的意义深远。首先,它提供了强大的软件工具支持,将预测模型公开并集成到广泛使用的FragPipe/MSBooster生态中,使得任何拥有相应质谱数据的用户都能像分析CID数据一样,便捷、高效地分析替代裂解技术的数据,从而获得更丰富的谱图信息和更自信的鉴定结果。其次,该研究展示了在DDA和DIA两种主流采集模式下,利用该模型进行重打分均可显著提升肽段和蛋白质的鉴定数量及质量,为利用更丰富信息的裂解技术进行深度蛋白质组覆盖和精准定量铺平了道路。此外,研究还通过多酶策略证实了不同裂解技术在获取互补序列信息方面的价值,例如UVPD产生了最多的独特序列覆盖数据。
尽管当前模型在特定仪器和参数下训练,可能需要对不同仪器进行微调,但它无疑为社区提供了一个卓越的起点。这项工作的最终愿景是激发领域对替代裂解技术价值的认识,增加市场需求,从而推动仪器厂商开发更高效、更易用的硬件平台。当先进裂解技术能够像今天的CID一样被常规、轻松地应用时,蛋白质组学将能够更全面、更精准地揭示蛋白质世界的奥秘,特别是对于那些用传统方法难以触及的、具有挑战性的蛋白质形态和修饰。

生物通微信公众号
微信
新浪微博


生物通 版权所有