引言
蛋白质组学旨在系统性解析生物系统中蛋白质的特性与功能,其中质谱技术是蛋白质鉴定与定量的核心手段。数据非依赖采集(DIA)质谱技术通过系统性地扫描宽范围质荷比(m/z),相比数据依赖采集(DDA)能够提供更全面且可重复的蛋白质定量结果。然而,DIA数据的高复杂性对分析工具提出了严峻挑战。现有主流DIA分析软件(如Spectronaut、DIA-NN等)多为闭源,限制了算法透明性与自定义分析的可能性。为此,本研究开发了基于Nextflow的开源工作流glaDIAtor-nf,支持从单物种蛋白质组到宏蛋白质组的非靶向DIA数据分析。
材料与方法
研究使用三个公开金标准数据集验证glaDIAtor-nf性能:Bruderer数据集(12种非人源蛋白梯度掺入人源背景)、Gotti数据集(48种UPS1蛋白掺入大肠杆菌背景)及Jumel多物种混合样本(酵母、人、大肠杆菌不同比例混合)。另使用Valo乳腺癌临床数据集(52例乳腺癌与20例导管原位癌组织)展示再分析价值。数据分析基于高性能计算集群,采用容器化技术(Docker/Apptainer)确保可重复性。肽段鉴定使用1%错误发现率(FDR)控制,定量数据经方差稳定归一化(VSN)处理,差异表达分析采用ROTS算法。
定量glaDIAtor-nf DIA数据分析工作流
工作流包含两大阶段:A阶段通过DIA-Umpire解卷积DIA数据或利用外部DDA数据构建伪谱库;B阶段基于谱库进行肽段鉴定、定量及特征对齐,最终生成肽段/蛋白质强度矩阵。工作流支持DDA辅助模式,通过高质量DDA谱库提升鉴定效率。Nextflow的自动化资源调度与容错机制显著提升了分析效率,例如Gotti数据集分析仅需5小时40分钟壁时间,并行CPU利用率达1636.2%。
金标准数据集验证高准确性
在Bruderer数据集中,glaDIAtor-nf鉴定到2531个蛋白质组(含全部12种掺入蛋白),掺入蛋白浓度对数倍变化与强度对数倍变化的Pearson相关性达0.93。Gotti与Jumel数据集的相关性分别为0.56和0.84。差异表达分析的受试者工作特征曲线下面积(AUC)均高于0.95,与DIA-NN性能相当,证实其定量可靠性。
再分析现有数据揭示新发现
对Valo乳腺癌数据的再分析鉴定到862个蛋白质组,相比原始研究多检测到90个差异表达蛋白。其中PARP1、THBS2等6个蛋白在glaDIAtor-nf分析中显著差异(FDR <0.01),而在原始数据中不显著。使用2024年10月版UniProt数据库进一步发现GSS、RAB1A等乳腺癌相关新靶点,凸显数据库更新与再分析的价值。
性能指标支持工作流优化
Nextflow内置资源监控功能显示,数据集中DDA/伪谱数量是计算时间主要影响因素。例如Bruderer数据集因包含967万DDA谱,CPU时间达207小时,而DIA谱较少的Valo数据集仅需117小时,表明数据规模与计算资源需求的直接关联。
讨论
glaDIAtor-nf通过Nextflow实现的高并行性与容器化部署,解决了传统图形界面工具难以扩展的痛点。其开源特性支持算法透明与自定义优化,尤其适合ELIXIR等研究基础设施部署。当前局限包括仅支持DSL1语法及不兼容timsTOF PASEF数据,未来版本将升级至DSL2并扩展仪器支持。结合GNU Guix实现的完全可重复软件环境,该工作流为大规模公共质谱数据再分析提供了可持续技术框架。