随着质谱(MS)技术的发展,蛋白质组学已经成为解读生命过程、探寻疾病机制的关键工具。然而,其研究过程复杂,从样本制备、仪器采集到数据处理,每一步都可能引入技术变异、噪音或系统性偏差。随着蛋白质组学越来越多地参与到大规模生物学研究和多组学整合分析中,确保数据的质量变得至关重要。没有严格且标准化的质量控制(QC),得出误导性结论的风险就会增加,尤其是在将蛋白质组学数据与转录组学或代谢组学等其他组学层进行整合时,不可靠的数据可能会危及整个分析框架。虽然已有许多工具支持蛋白质组学的QC(如专注于MaxQuant输出的PTXQC、用于原始LC-MS数据诊断的rawDiag、支持PRIDE数据库提交QC的PRIDE Inspector Toolsuite等),但它们往往专注于特定流程或阶段,缺乏统一的结果报告格式,且大多数工具主要支持数据依赖性采集(DDA)工作流程,缺少对DIA-NN、MaxDIA等流行数据非依赖性采集(DIA)工具的原生支持。此外,现有工具大多不原生支持标准化的样本元数据(如SDRF格式),这在需要一致性元数据进行有意义比较的多样本或多组学背景下,限制了其效用。
为此,研究人员开发了pmultiqc,旨在解决这些局限性。该研究旨在建立一个标准化、可扩展且可解释的QC框架,以适应大规模、复杂的蛋白质组学数据分析需求。最终,pmultiqc作为一个开源Python包被成功推出,它构建在广泛采用的MultiQC框架之上,为质谱工作流程提供专门的模块。该工具能标准化并生成跨多个蛋白质组学数据分析平台的基于Web的QC报告,并计算广泛的QC指标。研究得出结论,pmultiqc通过结合全面的指标分析与SDRF驱动的元数据,实现了更复杂的质量评估策略,为实验优化和问题排查提供了可操作的见解。其灵活的部署选项使其对个人实验室和大型服务设施都具有可及性。该论文发表在《Molecular 》期刊上。
研究人员采用的关键技术方法包括:1)基于MultiQC的插件架构开发:利用其模块化和可扩展性构建pmultiqc包。2)多格式文件解析与集成:开发了针对quantms、DIA-NN、MaxQuant/MaxDIA、FragPipe以及基于mzIdentML/mzML的PRIDE Complete submission等流程的格式特异性解析器,高效提取QC指标。3)样本元数据(SDRF)整合:首次在蛋白质组学QC中将标准化的样本元数据作为报告生成的核心组成部分。4)云端服务部署:利用Redis、Docker Compose或Kubernetes等技术构建了可扩展的分布式pmultiqc在线服务,允许用户分析本地数据或直接通过ProteomeXchange登录号(如PXD编号)检索分析PRIDE公共数据库中的数据。
研究结果
pmultiqc:核心处理流程与数据整合
pmultiqc的处理框架包含三个主要阶段:数据检测与解析、数据整合与QC指标计算、以及HTML报告生成。它通过匹配注册的文件格式模式自动识别输入文件类型,并采用针对内存效率优化的格式特定解析器。QC指标随后被转换为与MultiQC可视化功能兼容的标准化格式(如条形图、线图、散点图、热图),最终通过MultiQC的渲染引擎生成包含嵌入式JavaScript的自包含HTML报告,用于动态可视化和交互式探索。
支持的数据格式和工作流程
pmultiqc支持截至2026年的五种主要蛋白质组学分析工作流程(quantms、DIA-NN、MaxQuant/MaxDIA、FragPipe、以及PRIDE complete submissions mzIdentML/mzML)和ProteoBench格式,每种都有特定的输入文件要求(如quantms的experimental_design.tsv、mzTab;MaxQuant的parameters.txt、proteinGroups.txt;DIA-NN的report.tsv或report.parquet等)。
基于MultiQC的pmultiqc库
pmultiqc是作为MultiQC的Python扩展开发的,利用其经过验证的可扩展性框架进行生物信息学质量控制报告。MultiQC的插件架构允许在不修改其核心代码库的情况下开发自定义模块。pmultiqc利用了包括PyOpenMS(处理MS文件格式)、pyteomics(蛋白质组学特定数据结构)以及pandas、scikit-learn、NumPy等标准科学Python库。
实验设计与元数据
pmultiqc报告的首个部分以表格形式显示实验设计和参数。如果数据集在SDRF或其衍生格式(如quantms的experimental_design.tsv)中提供样本元数据,则会展示包含样本及其与原始文件关系的实验设计表。对于MaxQuant结果文件,分析参数(记录在parameters.txt中)会被直接转换为表格。
结果概览
“摘要表”总结了获取和识别的MS2谱图总数、MS2识别率、识别的肽段数量以及识别和定量的蛋白质数量。“QC热图”提供了实验的高级概览,显示污染物、肽段强度、电荷、错切位点等指标的分布情况,有助于快速检测实验中表现出非典型性能的样本或原始文件。如果SDRF可用,报告会根据与不同样本相关的实验条件总结识别/定量结果。
识别总结与搜索引擎评分
“识别总结”部分展示了评估肽段和蛋白质识别质量的关键指标,包括每个蛋白质识别的肽段数量(反映序列覆盖度)和错切位点分布(反映样本制备质量)。MS2识别率是另一个关键质量指标。该部分还显示了肽段识别工具特定的搜索引擎评分,包括后验错误概率(PEP)、谱图E值、交叉相关分数(XCorr)和SAGE HyperScores。
污染物
pmultiqc报告实验中排名前5的常见污染物蛋白质(如角蛋白、胰蛋白酶、牛血清白蛋白)。对于每个原始文件(或组),识别所有污染物,并根据强度计算其比例。在quantms流程中,污染物通过在登录号前添加“CONTAMINANT_”前缀来标记;在MaxQuant中,则通过“Potential contaminant”字段指示。
定量报告
pmultiqc提供可视化来评估和解释定量结果,包括肽段强度分布、总体强度分布、LFQ强度分布,以及对数转换后原始强度和LFQ强度的主成分分析(PCA)。如果支持的工具和分析结果包含肽段和蛋白质定量信息,则会以表格形式总结强度、蛋白质和肽段定量结果的分布。
保留时间QC与质量误差
pmultiqc在“保留时间QC与质量误差”小节中可视化与保留时间相关的关键特征。它生成所有运行中每个MS1(DIA-NN、MaxQuant、FragPipe)或MS2(quantms、mzIdentML)信号的保留时间整体分布图,以及描述保留时间与峰宽(即峰的总保留时间宽度)之间、保留时间与离子注入时间之间关系的散点图。此外,pmultiqc还提供质量误差指标的可视化,包括Δ质量(以道尔顿Da和百万分之一ppm计)和未校准质量误差(以ppm计)。对于MaxQuant流程,还遵循PTXQC方法可视化TopN指标及其与保留时间的关系。
MS1分析
MS1分析主要基于从谱图文件(*_ms_info.parquet)或MaxQuant的msScans.txt中提取的数据。pmultiqc处理这些数据以生成一系列分析图,全面概述所有运行中MS1扫描的特征,包括所有分析运行的总离子流图、MS1基峰色谱图、MS1峰图以及包含采集日期时间、MS1总离子强度等信息的“MS1信息通用统计”摘要表。
MS2与谱图统计
pmultiqc对已识别和未识别的MS/MS谱图提供全面的统计分析,主要检查三个方面:每个MS/MS谱图的峰数、峰强度分布和前体电荷分布。对于DIA数据,仅分析已识别的谱图。此外,pmultiqc生成名为“流程谱图追踪”的摘要表,追踪MS1和MS2谱图数量、不同搜索引擎识别的谱图数量、用于定量的可靠PSM数量以及通过肽段和蛋白质水平最终错误发现率(FDR)阈值的定量肽段数量。还进行每个原始文件的统计,总结前体电荷态分布和3D峰的数量。
软件版本与参数
pmultiqc通过自动提取和呈现来自支持工作流程的详细版本信息和管道配置,解决了可重复蛋白质组学和遵循FAIR原则中对软件版本和分析参数进行彻底记录的需求。对于quantms,它生成包括软件版本、工作流程参数和标准化方法总结的全面文档。对于MaxQuant工作流程,配置细节从parameters.txt文件中提取。
pmultiqc在线服务
研究人员开发了名为pmultiqc服务的附加服务,使多个研究组和实验室能够将pmultiqc作为可扩展的分布式服务运行。该服务利用Redis在分布式架构中管理作业,并支持灵活的部署选项。除了允许在研究机构内部署,团队还在PRIDE数据库、柏林自由大学生物信息学解决方案中心以及图宾根大学部署了多个分布式实例。用户可上传包含支持工具结果文件的ZIP文件,或直接提供ProteomeXchange登录号(如PXD003133)来检索和分析PRIDE数据集中的结果,并在浏览器中查看生成的报告。
ProteoBench集成
除了支持蛋白质定量流程,pmultiqc还能可视化ProteoBench的输出。ProteoBench是一个用于对蛋白质组学数据分析工作流程进行基准测试的开源平台。pmultiqc将ProteoBench提取的肽段水平信息传递以生成报告,报告包含更特定于ProteoBench实验设置的部分,允许用户下载预计算的MultiQC报告并在浏览器中可视化。
研究结论与讨论
pmultiqc通过提供一个统一的、支持元数据的框架,用于跨多样化分析工作流程进行全面的QC评估,代表了蛋白质组学质量控制的重大进展。它结合了全面的指标分析与SDRF驱动的元数据,实现了更复杂的质量评估策略,为实验优化和问题排查提供了可操作的见解。其灵活的部署选项使其对个人实验室和大型服务设施都具有可及性。与PRIDE等公共数据存储库的集成,使研究人员能够生成和共享来自多种蛋白质组学工具的QC报告,促进了数据的重新分析和跨研究的比较质量评估。
pmultiqc的模块化设计允许任何人通过添加新的工作流程、工具、绘图、QC指标或支持的文件格式来扩展它。展望未来,随着更多工具支持SDRF以及更多结果在样本层面生成,pmultiqc的元数据感知方法应得到扩展,从而实现无需将基于运行的结果合并为样本级结果即可自动生成指标。与ProteoBench等基准测试计划的集成也可增强其在性能评估和标准化中的作用。更重要的是,pmultiqc将通过提供一个可扩展的开源库来支持mzQC(一种用于交换、传输和存档源自MS的质量指标的标准文件格式)可视化报告,帮助社区填补这一空白。最终,pmultiqc旨在促进和简化流行工具、社区及ProteomeXchange合作伙伴在蛋白质组学中生成和共享QC报告。通过提供一致且易于访问的QC框架,它有助于为各种实验设计和分析平台设定数据质量的基本预期。