Spectraverse:小分子MS/MS谱图的全面整合与标准化——推动代谢物鉴定与机器学习模型发展的新资源

时间:2026年1月27日
来源:Analytical Chemistry

编辑推荐:

本文综述介绍了Spectraverse资源库,该库通过系统收集、整合与严格质控公共MS/MS(串联质谱)数据,构建了迄今最全面、高质量的小分子质谱数据库。文章详细阐述了其预处理流程(包括元数据修复、结构标准化及去冗余),解决了现有公共谱图库分散、质量不一、注释混乱等问题。Spectraverse显著扩展了化学空间覆盖度与加合物类型,为代谢组学中的代谢物鉴定及机器学习模型(如"MS/MS-to-compound"方法)训练提供了重要基础,有望促进算法公平比较与模型性能提升。

广告
   X   

引言
基于质谱的代谢组学能够在生物样本中检测到数千种小分子相关信号。串联质谱(MS/MS)是将这些信号与对应小分子化学结构关联的关键技术。在非靶向代谢组学实验中,获取的MS/MS谱图通常通过与参考MS/MS谱图库进行比较来进行注释。然而,通常只有一小部分MS/MS谱图能够通过谱库搜索得到注释,部分原因是这些谱库规模有限,且通常偏向于已被充分研究、商业可得的化合物。为弥补这一不足,MS/MS谱图的计算解析已成为代谢组学的一个重要研究方向。过去几年,一系列日益复杂的机器学习方法被引入,旨在即使小分子未出现在任何参考谱库中,也能尝试从其MS/MS谱图中识别它们。此类方法通常要么旨在生成预测的MS/MS谱图虚拟库(即“化合物到MS/MS”方法),要么旨在从MS/MS谱图本身预测分子描述符(即“MS/MS到化合物”方法)。与其他监督式机器学习任务一样,这些方法的成功取决于能否获得大规模、多样化且高质量的训练数据集——在本例中,即带有对应小分子化学结构注释的参考MS/MS谱图库。
参考MS/MS谱图库因此在代谢组学实验的分析和MS/MS解析计算方法开发中都扮演着核心角色。然而,在实践中,对于将这些库用于何种目的尚无共识。商业谱库(如NIST、mzVault或METLIN)通常提供经过良好整理和注释的MS/MS谱图,但这些库通常不以可用于训练机器学习模型的格式提供(例如,因为底层谱图及其相关元数据无法从专有软件中导出)。此外,由于这些库不能重新分发,基于商业库训练的机器学习模型不易复现。为避免这些问题,一些研究组转而利用公开可用的参考谱图库来训练机器学习模型,例如GNPS或MoNA聚合的库。然而,由于公共谱库通常未经过与商业库同等程度的整理,开发者必须制定标准来预处理这些谱图,识别高质量谱图,并验证相关元数据的完整性。此外,公共谱库分散在不同的数据库中。尽管从多个来源聚合谱图已变得越来越普遍,但用于MS/MS解析的机器学习模型历来是在单个(通常非常小的)数据集上训练的。几十年来,人们已经认识到,用于训练不同机器学习模型的数据集存在差异,阻碍了对它们进行公平比较。使用相对较小的训练数据集也可能导致某些方法的性能被低估,原则上,鉴于目前有数十万MS/MS谱图可用于模型训练,这个问题可以得到解决。
方法
数据来源
研究首先汇编了公开可用的参考MS/MS谱图的全面集合。简要来说,首先从一系列主要数据库和社区资源(包括GNPS、MoNA、MS-DIAL、HMDB和MSnLib)检索参考MS/MS库。随后,用个别文献中描述但据我们所知尚未存入GNPS或MoNA等数据库的参考MS/MS库作为补充。谱库从这些出版物的支持信息中获取,通过重新处理存入MetaboLights等存储库的原始实验数据,或从GitHub存储库、Zenodo访问号或出版物本身的附属网站获取;数据收集的详细信息见支持信息。总共检索到1,672,217个MS/MS谱图,以MGF格式进行进一步预处理。
元数据标准化与修复
首先标准化关键元数据字段的名称和值。例如,与特定谱图相关的加合物信息有时存在于MODIFICATIONS或PRECURSOR_TYPE等字段中;这些被标准化,使加合物信息始终存储在ADDUCT字段中。类似地,通过将“p”或“POS”重编码为“positive”来标准化电离模式。进行了类似调整,以确保化合物名称、SMILES、InChIs和InChIKeys、电荷以及MS级别被分配在一致的元数据字段中,并且对于分类元数据,具有一致的值。
对于未与化合物名称或结构标识符关联的谱图,尽可能通过查询GNPS API来检索结构,并尝试手动整理许多剩余未与化学结构关联的谱图的SMILES字符串,特别关注与多个MS/MS谱图关联的化合物名称。当谱图与无效的SMILES字符串关联时,测试是否可以通过修改字符串(例如,去除无关字符)得到有效的SMILES。
在此阶段,去除了强度为零的碎片离子,以及质荷比(m/z)在10到1000范围之外的离子。
在手动整理每个MS/MS谱图的相关元数据后,应用matchms(版本0.27.0)进一步协调和修复元数据(如可能)。特别是,使用matchms来协调元数据字段名称和值,推导缺失的元数据或输入错误字段的元数据,并修复注释;运行matchms的具体配置在支持信息中提供。碎片强度也在此阶段归一化至基峰。上述手动标准化需要在matchms运行之前进行,以防止错误地移除具有异常编码元数据字段或值的谱图。在第一次matchms运行后,还移除了具有均匀峰强度、前体m/z值大于1000、以及仍未与有效SMILES字符串关联的谱图。
化学结构标准化
制定了多阶段方法来预处理和标准化化学结构。使用RDKit加载SMILES字符串,进行 sanitize,并使用RDKit函数SanitizeMol、Cleanup和FragmentParent分别清理以去除氢、金属和断开片段。去除立体化学信息,并使用TautomerEnumerator类将互变异构体标准化为其规范形式。尽可能中和电荷。研究发现,该方法有时会错误地中和以电荷分离形式书写的官能团,特别是亚砜和磷酰基团,因此实施了额外检查以确保这些官能团被正确中和。当中和作用改变了分子的总电荷时,会创建谱图的两个副本(一个与带电形式关联,一个与不带电形式关联),并将两者都带入下面描述的第二轮matchms中,发现这对于防止matchms移除两性离子化合物是必要的,因为对这些化合物中和电荷会产生带电分子。在此阶段,移除了空谱图、非MS2谱图以及来自稀有加合物(即,除以下九个常见加合物之外的加合物,在第一次matchms运行后,每个加合物单独关联的谱图数量均未超过约5000个)或与中性丢失相关的加合物的谱图。
去除低质量或注释不一致的谱图
随后旨在识别并移除被推断为低质量或低分辨率,或注释的化学结构与谱图本身不一致的谱图。首先,移除了所有碎片质量仅保留两位或更少小数的低分辨率谱图。移除了所有碎片m/z值超过前体m/z的谱图,以及当唯一碎片离子在 precursor m/z的±1.6 m/z范围内时仅包含一个碎片离子的谱图。然后对这些谱图进行第二轮matchms处理,以移除具有不一致注释的谱图。修改了matchms函数_get_neutral_mass中的代码,以移除注释为[M]+或[M]加合物但净电荷为零的谱图。
去除近重复谱图
通过匹配InChIKey前14个字符和极性的谱图来识别候选的近重复谱图对。然后计算这些候选对之间的余弦相似度,余弦相似度超过0.99的谱图被标记为近重复。从每组近重复中保留一个条目,尽可能优先选择具有更多碎片离子的条目。
最终筛选与元数据标准化
实施了最终的高分辨率MS/MS谱图检查,移除了理论前体m/z值与实验值偏差超过10 ppm的谱图。移除了由第二轮matchms引入的稀有加合物,使得Spectraverse中保留了九个最常见的加合物([M + H]+, [M + Na]+, [M + K]+, [M + NH4]+, [M]+, [M – H], [M + Cl], [M + HCOOH – H], 和 [M + CH3COOH – H])。移除了相对强度低于0.1%的碎片离子,并且每个谱图仅保留强度最高的前4096个离子。在此阶段移除了少量注释的SMILES字符串包含自由基电子的谱图。
最后,标准化了与仪器类型和碰撞能量相关的元数据。仪器类型被手动映射到三个类别:QTOF、Orbitrap和离子阱(或未指定)。在此阶段,移除了来自低分辨率三重四极杆(QQQ)仪器的谱图。为适应斜坡或步进碰撞能量,每个谱图与最多三个碰撞能量字段关联,每个字段在谱图元数据中均以电子伏特(eV)和归一化碰撞能量(NCE)提供。
质心化、电子去噪及低强度碎片去除
使用“spectral_denoising”Python包中实现的函数进行电子去噪。使用从“MSEntropy”Python包改编的自定义函数进行质心化,该函数在预设的m/z容差范围内对峰进行分组,并计算每个峰组的加权平均m/z。为评估质心化、电子去噪和去除低强度碎片离子的效果,评估了谱图相似性(以余弦相似度量化)正确区分来自相同化合物与不同化合物的谱图的能力,以受试者工作特征曲线下面积(AUROC)量化。计算谱图间的成对余弦相似度以生成相似性矩阵,仅考虑前体m/z值在10 ppm窗口内的谱图对。同时,创建了一个二元标签矩阵,对共享相同InChIKey前14个字符的谱图赋值为1,否则为0。然后使用sklearn库中的roc_auc_score函数计算AUROC。研究发现,质心化和去噪均会适度但一致地降低AUROC,因此决定不将这两个函数纳入预处理流程。去除低强度离子同样适度降低了AUROC,但当保留强度最高的前4096个碎片离子时,这种效应已基本饱和,因此,在Spectraverse中应用了这种宽松的过滤器。
与MassSpecGym和NPLIB1的比较
将Spectraverse与MassSpecGym和NPLIB1进行了比较,这是两个最广泛用于训练和基准测试机器学习模型的公共谱图库。MassSpecGym是最近提出的用于小分子MS/MS谱图计算解析的基准数据集。谱图从HuggingFace获取(文件MassSpecGym.mgf),未进行进一步处理。NPLIB1包含从GNPS提取的参考MS/MS谱图,由CANOPUS的作者准备。谱图从Zenodo获取,按照MIST GitHub存储库中的说明操作。生成的存档包含10,709个“.ms”文件,与先前工作中描述的数据集大小一致。其中一些文件包含多个谱图,使用Bioconductor包“Spectra”中的函数“combineSpectra”以50 ppm的容差进行合并;在合并前移除了标题指示为MS1谱图的谱图。使用“umap-learn”Python包中的实现,对三个数据集中发现的所有独特化学结构的并集运行UMAP,将邻居数(n_neighbors)设置为5000,最小距离(min_dist)设置为0.5,并可视化为2D密度图。使用classyfireR包从ClassyFire API获取ClassyFire注释。通过使用这三个库中的每一个对从4510个已发表的人血液代谢组学分析中编制的2910万个MS/MS谱图数据集进行参考谱库搜索,评估了Spectraverse、MassSpecGym和NPLIB1对代谢组学实验中常见代谢物的覆盖度。使用matchms中的实现计算余弦相似度,前体m/z容差为10 ppm,并要求实验谱图和参考谱图之间至少有三个碎片离子匹配。
结果
参考MS/MS谱图的全面整理与协调
公开可用的小分子参考MS/MS谱图分散在不同的来源中。GNPS和MoNA等数据库通过聚合第三方贡献的谱库,为计算质谱学界提供了重要资源。然而,大量参考MS/MS谱图尚未整合到这些收集中,只能通过MetaboLights等原始代谢组学数据存储库、Zenodo等通用科学数据存储库或描述这些库的出版物的支持文件或网站访问。此外,由于GNPS和MoNA等数据库聚合了第三方提交的谱库,其中的MS/MS谱图通常未经过与商业库同等程度的整理。因此,这些数据库可能包含低质量、缺少重要元数据或化学结构注释与谱图本身不一致的谱图。为解决这些问题,我们着手全面识别和整理公开可用的小分子MS/MS谱图。
研究首先检索了所有能识别出的参考MS/MS谱图。除了主要数据库和社区资源(包括GNPS、MoNA、MS-DIAL、HMDB和MSnLib)外,还从个别出版物中整理数据,并从原始LC-MS/MS数据中提取参考谱图。例如,从Zenodo检索了聚乙烯衍生化合物的参考MS/MS库,通过交互式网络应用程序提供了秀丽隐杆线虫代谢物库,以及参考标准品的原始实验数据上传至MetaboLights的番茄代谢物库,这些均未存入社区数据库。总之,这些努力最终积累了1,672,217个小分子MS/MS谱图。
参考MS/MS谱图相关元数据的完整性和一致性近年来受到越来越多的关注。这反过来又推动了matchms等工具的开发,以协调谱图元数据并识别不一致的注释。因此,研究首先利用matchms协调关键元数据字段的命名法,推导缺失的元数据,并修复可自动识别和更正的不正确注释。同时,对所组装MS/MS谱图的详细检查导致识别出一系列影响谱图本身的问题,包括所有碎片离子强度相同的谱图;强度为零的碎片离子;在MSn级别为3或更高时获取的谱图;结构信息不丰富的谱图(例如,因为所有碎片离子的m/z值都大于前体m/z);以及低分辨率谱图。研究设计了一系列额外的预处理步骤来识别和修复或移除这些有问题的谱图。
然后将注意力转向与每个谱图相关的化学结构。对这些结构的处理分三步进行,每一步解决一个不同的挑战。首先,研究发现许多谱图与相应小分子的常用名关联,但没有SMILES或InChI标识符,并且matchms未能为相当一部分此类谱图检索到相关结构。因此,实施了额外的预处理例程来自动检索这些缺失的化学结构,并为剩余的19,574个谱图(对应2090个独特化合物)手动整理了SMILES字符串。无法检索到有效化学结构或注释有无效SMILES字符串的谱图被移除。其次,设计了一个流程来标准化每个化学结构的表示,包括去除立体化学信息、中和带电部分、去除断开片段和标准化互变异构体。研究发现需要特别小心地同时标准化化学结构上的形式电荷和相应MS/MS谱图相关的加合物。第三,移除了稀有加合物(认为不太可能有足够数据来实际支持MS/MS解析的机器学习模型)以及涉及中性丢失的加合物,因为通常不清楚实际测量的是哪种分子物种(或物种组合)。
在 thus 标准化了每个参考MS/MS谱图的元数据之后,然后第二次应用matchms,这次采用更严格的过滤器,以移除任何剩余注释不一致的谱图。手动审查了数千个被移除的谱图,以确认其相关元数据不可能被修复,并对预处理策略进行了改进,最终形成了上述和方法部分中描述的工作流程。在此阶段,还移除了观察到的前体m/z与理论值偏差超过10 ppm的任何MS/MS谱图,以及在三重四极杆质谱仪上采集的MS/MS谱图,这两者均被假定为表示低分辨率谱图。
最后的系列过滤器确保了每个MS/MS谱图的唯一性和相关元数据的完整性。特别是,观察到谱库包含大量近重复谱图,这可能反映了以碎片离子强度差异可忽略的方式获取的几乎相同的谱图,或对相同MS/MS谱图应用了略微不同的预处理策略。为识别和过滤这些近重复谱图,当来自同一化合物的多个谱图显示出大于0.99的余弦相似度时,仅保留一个代表性谱图。尝试了各种去噪谱图或去除低强度离子的策略,但发现这些策略通常没有改善(实际上略微降低了)谱图相似性区分相同化合物与同量异位化合物 within our data 的倾向。相反,选择过滤强度非常低的碎片离子(相对强度低于基峰的0.1%),并且每个谱图仅保留强度最高的前4096个离子。最后,手动整理和协调了与获取每个MS/MS谱图所用的质谱仪类型和碰撞能量相关的元数据。为适应斜坡或步进碰撞能量,每个谱图与最多三个碰撞能量字段关联,每个字段在谱图元数据中均以eV和NCE提供。
总共有488,630个MS/MS谱图,涵盖44,237个独特小分子,通过了所有上述标准,创建了一个名为Spectraverse的公开可用MS/MS谱图的全面参考库。
Spectraverse扩展了现有的公共参考MS/MS谱图集合
为整理和预处理公开可用MS/MS谱图所付出的广泛努力解决了与公共MS/MS谱图质量及其相关元数据一致性相关的众多问题。其中一些问题似乎先前未被记录,增加了它们可能混淆已报道的MS/MS解析机器学习模型之间性能差异的可能性,或者相反,导致有效的MS/MS谱图从这些模型的训练集中被丢弃。即使经过如此严格的过滤,Spectraverse仍代表了最大的公开可用参考MS/MS谱图集合。它包含的谱图数量是MassSpecGym的两倍多,是NPLIB1的40多倍,后者是用于训练和评估机器学习模型的两个主要非商业数据集。此外,研究发现MassSpecGym中包含的相当一部分谱图是近重复的,定义为与数据集中同一化合物的另一个谱图具有0.99或更高余弦相似度的谱图。移除这些近重复谱图后,Spectraverse规模的扩大更加明显。
重要的是,Spectraverse包含了代谢组学实验中常见的各种加合物采集的MS/MS谱图,其中许多在MassSpecGym和NPLIB1中缺失或代表性不足。尽管MassSpecGym特别是标准化MS/MS解析计算方法基准测试的一项高度有价值的努力,但它仅包含所有公开可用MS/MS谱图的一小部分,部分原因是它完全排除了负电离模式谱图以及超出质子化或钠化加合物的正模式谱图。计算解析此类谱图的灵活性对于避免通过将它们归类为来自推定未识别代谢物的信号而将其错误地归因于代谢组的化学“暗物质”至关重要。
检查这三个数据集中包含的谱图特征——特别是碎片离子的数量及其质荷比和强度——也突出了Spectraverse和MassSpecGym相对于NPLIB1的一个重要优势。除了其有限的规模外,后一个数据集包含具有异常多碎片离子的谱图,特别是低强度离子。这种差异可能反映了合并谱图的包含,其中在不同碰撞能量下获取的扫描被合并以创建单个代表性谱图。如图3e和g强调,此类合并谱图可能不像常规代谢组学实验中获取的单个谱图。
除了技术异质性外,还评估了这三个数据集的化学多样性。为此,对在所有三个数据集中发现的化学结构进行了降维处理使用UMAP。 resulting visualization highlights the broader coverage of chemical space afforded by Spectraverse.
最后,分析了Spectraverse的技术异质性和化学多样性是否转化为对常规代谢组学实验中遇到的代谢物覆盖度的改善。为评估这种可能性,利用了一个最近编制的、从4510个人血液代谢组学分析中提取的2910万个MS/MS谱图数据集。对这些2910万个实验性MS/MS谱图针对Spectraverse、MassSpecGym或NPLIB1进行了参考谱库搜索,使用10 ppm的前体容差。在任何余弦相似度阈值下,针对Spectraverse进行搜索能够注释最多数量的实验性MS/MS谱图。
讨论
公开可用的参考MS/MS谱图库仍然分散在不同的来源中,并且包含低质量、冗余或伴随不完整或不一致元数据的谱图。因此,对开发代代谢物注释机器学习模型感兴趣的研究人员必须首先进行大量工作来整理、预处理和协调这些模型所要训练的参考谱图。此类工作需要小分子质谱方面的专业知识, effectively raising the barrier to entry into this field.
Spectraverse通过组装迄今最大、最多样化的公共MS/MS谱图集来应对这一障碍,涵盖正负电离模式和各种加合物类型。它包含的谱图数量是MassSpecGym(最大的机器学习就绪MS/MS谱图资源)的两倍多(在从此资源中移除近重复谱图后是三倍多),并且包含大约多50%的小分子的参考谱图。考虑到应用于其中MS/MS谱图预处理的严格标准,这种广度是显著的。通过手动审查数千个MS/MS谱图,识别并解决了一系列在现有资源中未得到一致解决的问题:例如,存在低分辨率谱图、强度为零或均匀的碎片离子,或化学结构表示不一致。现有数据集中存在数万个近重复谱图尤其令人担忧,因为它增加了在这些数据集上训练的模型可能无意中偏向于在这些数据集中人为过度代表的化合物或碎裂模式的可能性。
当前版本的Spectraverse(v1.0.1)存档于Zenodo,其预处理代码通过GitHub公开可用,并附有详细文档。计划随着公共MS/MS库的持续增长,维护和扩展此资源。特别是,计划按照语义版本控制方案通过Zenodo分发未来版本,每个版本将被分配自己的DOI并永久存档,允许相关方访问旧版本的Spectraverse(例如,为了复现在先前版本上训练的机器学习模型的性能)。通过这样做,希望确保用于MS/MS解析的机器学习模型在尽可能准确、多样和可复现的基础上进行训练,并为希望在自己工作中利用公共MS/MS库的研究人员降低门槛。

生物通微信公众号
微信
新浪微博


生物通 版权所有