基于Nextflow的定量DIA质谱数据分析工作流glaDIAtor-nf：提升蛋白质组学研究可重复性与大规模数据分析效率

时间：2026年2月11日

来源：Journal of Proteome Research

编辑推荐：

本文系统介绍了基于Nextflow工作流管理系统的开源DIA（数据非依赖采集）质谱数据分析工具glaDIAtor-nf，通过金标准数据集验证其定量准确性，并利用乳腺癌临床样本证明其对公共数据再分析的潜力。该工作流通过容器化技术与并行计算支持，显著提升了DIA数据处理的标准化程度与可扩展性，为蛋白质组学研究的可重复性提供了关键技术支撑。

引言

蛋白质组学旨在系统性解析生物系统中蛋白质的特性与功能，其中质谱技术是蛋白质鉴定与定量的核心手段。数据非依赖采集（DIA）质谱技术通过系统性地扫描宽范围质荷比（m/z），相比数据依赖采集（DDA）能够提供更全面且可重复的蛋白质定量结果。然而，DIA数据的高复杂性对分析工具提出了严峻挑战。现有主流DIA分析软件（如Spectronaut、DIA-NN等）多为闭源，限制了算法透明性与自定义分析的可能性。为此，本研究开发了基于Nextflow的开源工作流glaDIAtor-nf，支持从单物种蛋白质组到宏蛋白质组的非靶向DIA数据分析。

材料与方法

研究使用三个公开金标准数据集验证glaDIAtor-nf性能：Bruderer数据集（12种非人源蛋白梯度掺入人源背景）、Gotti数据集（48种UPS1蛋白掺入大肠杆菌背景）及Jumel多物种混合样本（酵母、人、大肠杆菌不同比例混合）。另使用Valo乳腺癌临床数据集（52例乳腺癌与20例导管原位癌组织）展示再分析价值。数据分析基于高性能计算集群，采用容器化技术（Docker/Apptainer）确保可重复性。肽段鉴定使用1%错误发现率（FDR）控制，定量数据经方差稳定归一化（VSN）处理，差异表达分析采用ROTS算法。

定量glaDIAtor-nf DIA数据分析工作流

工作流包含两大阶段：A阶段通过DIA-Umpire解卷积DIA数据或利用外部DDA数据构建伪谱库；B阶段基于谱库进行肽段鉴定、定量及特征对齐，最终生成肽段/蛋白质强度矩阵。工作流支持DDA辅助模式，通过高质量DDA谱库提升鉴定效率。Nextflow的自动化资源调度与容错机制显著提升了分析效率，例如Gotti数据集分析仅需5小时40分钟壁时间，并行CPU利用率达1636.2%。

金标准数据集验证高准确性

在Bruderer数据集中，glaDIAtor-nf鉴定到2531个蛋白质组（含全部12种掺入蛋白），掺入蛋白浓度对数倍变化与强度对数倍变化的Pearson相关性达0.93。Gotti与Jumel数据集的相关性分别为0.56和0.84。差异表达分析的受试者工作特征曲线下面积（AUC）均高于0.95，与DIA-NN性能相当，证实其定量可靠性。

再分析现有数据揭示新发现

对Valo乳腺癌数据的再分析鉴定到862个蛋白质组，相比原始研究多检测到90个差异表达蛋白。其中PARP1、THBS2等6个蛋白在glaDIAtor-nf分析中显著差异（FDR <0.01），而在原始数据中不显著。使用2024年10月版UniProt数据库进一步发现GSS、RAB1A等乳腺癌相关新靶点，凸显数据库更新与再分析的价值。

性能指标支持工作流优化

Nextflow内置资源监控功能显示，数据集中DDA/伪谱数量是计算时间主要影响因素。例如Bruderer数据集因包含967万DDA谱，CPU时间达207小时，而DIA谱较少的Valo数据集仅需117小时，表明数据规模与计算资源需求的直接关联。

讨论

glaDIAtor-nf通过Nextflow实现的高并行性与容器化部署，解决了传统图形界面工具难以扩展的痛点。其开源特性支持算法透明与自定义优化，尤其适合ELIXIR等研究基础设施部署。当前局限包括仅支持DSL1语法及不兼容timsTOF PASEF数据，未来版本将升级至DSL2并扩展仪器支持。结合GNU Guix实现的完全可重复软件环境，该工作流为大规模公共质谱数据再分析提供了可持续技术框架。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部