基于DreaMS的自监督学习模型:从百万级串联质谱数据中挖掘分子表征的新范式

时间:2025年5月24日
来源:Nature Biotechnology

编辑推荐:

本研究针对串联质谱(MS/MS)解析的挑战,开发了基于Transformer的自监督学习模型DreaMS。研究团队通过挖掘GNPS数据库中700万组未标注的MS/MS数据构建GeMS数据集,采用掩码峰预测和保留顺序预测的双任务预训练策略,使模型自主习得分子结构表征能力。经微调后,DreaMS在谱图相似性评估、分子指纹预测、氟化物检测等任务中均达到SOTA性能,并构建了包含2.01亿谱图的DreaMS Atlas分子网络。该研究为突破传统谱库限制、探索"暗物质代谢组"提供了新工具。

广告
   X   

在生命科学领域,串联质谱(MS/MS)技术已成为解析生物和环境样本分子组成的核心工具。然而当前代谢组学研究面临两大瓶颈:一方面,非靶向实验中仅约2%的MS/MS谱图能通过标准谱库注释,即使采用最先进的机器学习工具,注释率也不足10%;另一方面,人类体内或植物王国中超过90%的小分子仍属未被发现的"暗物质代谢组"。传统方法严重依赖有限的人工标注谱库和专家经验规则,这种"知识瓶颈"极大限制了新分子的发现效率。

为突破这一局限,来自捷克技术大学等机构的研究团队在《Nature Biotechnology》发表了开创性研究。该工作受蛋白质序列和自然语言处理领域大模型的启发,首次将自监督学习范式引入小分子质谱解析领域。研究人员从GNPS数据库中挖掘70万组LC-MS/MS实验数据,构建了包含7亿张谱图的GNPS Experimental Mass Spectra(GeMS)数据集,并通过严格的质量控制流程将其优化为三个子集(GeMS-A/B/C)。基于此,团队开发了基于Transformer架构的DreaMS模型,通过掩码峰预测和色谱保留顺序预测的双任务预训练,使模型从海量未标注数据中自主发现分子结构特征。微调后的模型在谱图相似性评估、分子指纹预测、化学性质推断等任务中全面超越现有方法,并构建了覆盖2.01亿张谱图的DreaMS Atlas分子网络。

关键技术方法包括:1) 从MassIVE GNPS库中筛选25万组LC-MS/MS实验构建GeMS数据集;2) 采用局部敏感哈希(LSH)算法进行高效谱图聚类;3) 设计包含傅里叶特征编码和Graphormer式注意力机制的Transformer架构;4) 开发Murcko直方图算法解决分子数据集划分难题;5) 基于NN-Descent算法构建大规模分子网络。

研究结果部分的重要发现包括:
"Large-scale datasets of MS/MS spectra for deep learning":通过建立包含7亿张谱图的GeMS数据集,研究者构建了较现有谱库(MoNA+NIST20)规模扩大三个数量级的数据资源,其中高质量子集GeMS-A包含4200万张Orbitrap采集的谱图。

"Self-supervised pre-training on MS/MS spectra":模型通过预测30%随机掩码的m/z值和色谱保留顺序,自主学习了分子片段特征。线性探测实验显示,随着预训练进行,模型对MACCS指纹位的召回率持续提升,表明其逐步掌握了分子亚结构识别能力。

"Transfer learning to MS/MS spectrum annotation tasks":微调后的DreaMS在多项任务中表现优异:1) 谱图相似性评估方面,其与Tanimoto相似性的相关系数达0.61,优于MS2DeepScore的0.55;2) 分子指纹预测任务中,Top1检索准确率达32.7%,超越MIST模型的29.4%;3) 氟化物检测实现91%的高精度,较SIRIUS提升近80%。

"DreaMS Atlas-repository-scale molecular network":构建的分子网络包含3400万个节点,其中最大簇含39.3万张谱图。分析显示,从随机节点到最近谱库节点的平均路径长度为6跳,最小相似度中位数为0.65,表明网络中大量分子在现有谱库中未有记载。

这项研究的创新价值体现在三个方面:方法论上,首次证明自监督学习能从原始质谱数据中自发涌现分子结构知识;技术上,开发的DreaMS模型摆脱了对人工规则和标注数据的依赖;应用上,构建的DreaMS Atlas为探索未知化学空间提供了全新平台。特别值得注意的是,研究者通过分析网络拓扑结构,发现了银屑病与杀菌剂嘧菌酯的潜在关联等新线索,展示了该技术在发现生物标志物和环境暴露因子方面的巨大潜力。该成果不仅为代谢组学研究提供了新范式,其"预训练+微调"的技术路线也为其他科学仪器的数据分析提供了重要参考。

生物通微信公众号
微信
新浪微博


生物通 版权所有