综述:人工智能视角下的核磁共振波谱

时间:2026年6月1日
来源:Magnetic Resonance Letters

编辑推荐:

核磁共振(NMR)波谱是化学、生物学和医学中不可或缺的分析技术,能在分子层面提供结构和动态信息,用于代谢物鉴定和生物标志物发现。然而,其在代谢物研究中的广泛应用受到固有限制,如灵敏度低、严重的谱峰重叠,以及低场仪器便携性与光谱分辨率和灵敏度之间的权衡,此外还有

广告
   X   

核磁共振(NMR)波谱是化学、生物学和医学中不可或缺的分析技术,能在分子层面提供结构和动态信息,用于代谢物鉴定和生物标志物发现。然而,其在代谢物研究中的广泛应用受到固有限制,如灵敏度低、严重的谱峰重叠,以及低场仪器便携性与光谱分辨率和灵敏度之间的权衡,此外还有从高通量代谢物大数据中挖掘有效生物信息的困难。近年来,人工智能(AI)特别是深度学习(DL)的进步有助于解决这些核心挑战,重塑了NMR技术在代谢物研究中的能力。本视角概述了NMR在代谢物研究中的核心作用与现有瓶颈,并追溯了AI在NMR中的演进进展。随后聚焦于AI赋能NMR用于代谢物研究的三个相互关联且具有技术创新性的方向,包括:(1)提升低场谱的光谱分辨率至与高场谱匹配,或直接从低场谱中提取类高场NMR信息;(2)通过优化复杂代谢混合物的纯位移谱来缓解谱峰拥挤,该方法将多重峰转化为单峰以简化复杂谱图;(3)在代谢组学中鉴定代谢物和生物标志物(包括高脂血症中与脂蛋白相关的代谢标志物)。AI与NMR的协同有望为代谢组学解锁前所未有的分析能力,影响遍及科学发现、精准医学、食品科学及相关领域。
核磁共振(NMR)技术是化学、生物学和医学中不可或缺的分析工具,是代谢物研究的基石技术,能够在分子水平上提供代谢物的详细结构和动态信息,具有无损检测、样品前处理简单、可同时定量多种组分的优势。尽管在仪器优化、脉冲序列设计和数据处理方面取得了数十年的显著进展,但代谢物研究面临的特定挑战,如检测低丰度代谢物的灵敏度有限、复杂代谢混合物中的谱峰严重重叠、数据采集时间长,以及低场NMR便携性与谱图质量之间的权衡,仍然阻碍其在高通量代谢分析和临床筛查中的更广泛应用。近年来,人工智能(AI)尤其是深度学习(DL)的突破性进展,为解决这些长期存在的挑战创造了新的机遇。AI赋能的方法已展示了通过重建欠采样数据来减少实验时间、通过采用纯位移技术提高光谱分辨率、抑制噪声和挖掘高维代谢物大数据的能力,这些进展有望将NMR在代谢物研究中的应用从实验室基础研究扩展到临床和工业实际场景。
鉴于这些变革性进展,本视角旨在概述AI赋能NMR的潜力。在总结AI在NMR中的进展后,本文聚焦于三个方向:重建或直接分析低场NMR数据、通过纯位移技术提高光谱分辨率以及鉴定代谢物和生物标志物。最后,我们讨论了尚未解决的技术障碍并展望了AI赋能NMR研究的未来方向。
AI的发展经历了几个重要阶段。早期的神经网络研究提供了基本基础,其他机器学习方法(如支持向量机和决策树)也发挥了重要作用。在此基础上,深度学习的兴起标志着一次重大飞跃。2006年Hinton等人引入深度信念网络,标志着深度学习时代的正式开始,这是一个关键时刻。随后,2012年深度卷积神经网络(CNN)AlexNet在ImageNet竞赛中获胜,展示了DL在图像识别方面的卓越能力,取得了突破。这一成功展现了DL的力量,并使AI研究再次受到全球关注。这些发展的重要性在2024年日益得到认可,当年诺贝尔物理学奖授予John J. Hopfield和Geoffrey E. Hinton,以表彰他们对AI的开创性理论贡献;诺贝尔化学奖授予David Baker、John M. Jumper和Demis Hassabis,以表彰他们在AI驱动的蛋白质设计和结构推断方面的贡献。自2012年以来,新的神经网络如循环神经网络(RNN)、长短期记忆(LSTM)网络、生成对抗网络(GAN)以及大规模预训练模型如GPT-4,极大地扩展了AI的能力。随着这些发展,AI不再局限于视觉和语言任务,现在被应用于包括NMR波谱在内的多个科学领域,正在解决结构生物学、药物分析和代谢物研究中的多方面挑战。
AI在NMR波谱的多个领域得到了日益广泛的应用,解决了长期存在的实验技术瓶颈和数据分析挑战。在非均匀欠采样(NUS)重建方面,AI方法可以将欠采样数据重建为高质量的谱图,通常优于需要仔细参数调整的传统算法。对于信噪比(SNR)低的谱图,基于AI的去噪方法可以去除噪声并保留分析所需的弱峰。这在NMR研究中尤为重要,因为弱峰可能对应于关键的结构特征或低浓度组分。谱峰重叠在复杂混合物分析中仍然是一个重大挑战。基于AI的方法在峰拾取方面已展现出高准确性,这有助于改进谱峰归属和谱图解析。此外,AI驱动的虚拟解耦技术提供了一种高效的方法,可以在无需额外实验步骤的情况下去除耦合伪影并提高光谱分辨率,从而提高谱图质量和分析可靠性。基于这一基本概念,最近的研究将虚拟解耦应用于解决大分子NMR中的特定挑战,在均匀¹³C标记的蛋白质谱中实现了¹³C-¹³C解耦,产生了高质量的甲基-TROSY和芳香族¹H-¹³C相关图,从而将NMR应用扩展到大蛋白质和芳香族残基。此外,提出了名为SE2CSNet的基于AI的方法,该方法通过检测一组具有不同回波时间的八个自旋回波谱中信号相位的变化,并将其转换为没有灵敏度损失但具有严重谱峰重叠的高分辨率化学位移二值谱。在代谢物研究中,AI已被应用于从高度复杂的生物混合物中检测疾病相关的生物标志物,为精准医学和早期诊断提供了新的机遇。
AI赋能NMR在代谢物研究中的潜力源于人工智能的能力,它擅长从海量和高维数据集中识别复杂模式、学习复杂映射并做出预测。受这些能力驱动,生成式AI的最新突破,特别是大规模预训练模型和复杂的神经架构如Transformer和图神经网络(GNN),正在显著扩展可用于NMR的工具箱。这些进步不仅能够实现欠采样或含噪代谢谱图的更优重建,还能直接从谱图模式中提取复杂的、非直观的分子特征和化学关联,为更自动化、更深入的代谢物分析铺平了道路。AI与NMR的结合有望为代谢物解锁超越当前技术水平的变革性应用。未来的进展预计将推动开发高度集成、端到端的AI系统,能够实现自动化的谱图质量改善和代谢物鉴定,使得高分辨率、定量的代谢分析即使在低场或便携式仪器上也能实现。此外,通过先进的基于AI的数据融合技术整合多模态数据(将NMR代谢组学数据与其他光谱学、成像或临床数据相结合),有望在代谢水平上对复杂的生物系统和疾病状态提供更全面的理解。
本视角探讨了AI在NMR中的核心潜力,围绕代谢物研究的三个相互关联的方向展开,这些方向相互支持,形成了一个从数据采集优化到谱图处理,最终到代谢物数据挖掘的完整技术体系。
在低场条件下获取类高场谱
高场NMR系统(通常≥300 MHz)能提供具有高灵敏度的高分辨率谱图,使其成为代谢物研究中分析复杂代谢物分子的理想选择。然而,这些优势伴随着显著缺点:价格高、维护成本高、体积大,限制了其在专业实验室的应用,无法满足现场代谢检测和大规模临床筛查的需求。相比之下,低场NMR仪器(通常≤100 MHz)克服了许多这些限制。其紧凑的设计和可负担性(成本为数万美元)使其适用于常规工业应用,包括食品科学、材料测试和质量控制,以及现场临床代谢检测。然而,分辨率降低常导致复杂代谢混合物中的谱峰重叠,阻碍了进一步的代谢物鉴定和定量。灵敏度下降进一步要求更高的样品浓度或更长的采集时间,使得高通量代谢物分析具有挑战性,这已成为限制低场NMR在代谢物研究中应用的核心瓶颈。
AI的最新进展引发了低场NMR的革命,使得通过AI算法从低场NMR数据中获取类高场NMR信息成为可能,这从根本上打破了便携性与谱图性能之间的权衡,极大地扩展了低场NMR在代谢物研究中的应用范围。通过从大量代谢物数据集中学习低场与高场谱图之间的复杂关系,复杂的DL模型可以直接从低场谱图中提取代谢物的准确化学信息。Prestegard等人探索使用在Spinach生成的模拟二维J分辨NMR谱图上训练的三层前馈网络,从在低场谱仪(80 MHz)上采集的系统J分辨谱图中提取¹H化学位移和¹H-¹H耦合常数。该网络在模拟数据上表现良好(位移的R因子>0.95,三键耦合的R因子>0.84),并且对目标代谢物(如图1所示)产生了相当接近的化学位移(基本相同)和耦合常数(大多在±2 Hz以内),验证了AI从低场NMR谱图中提取小分子代谢物准确结构信息的可行性。Jiang等人使用在144种在梯度温度下冷冻的明胶基模型食品上采集的实验低场NMR T2数据训练的反向传播人工神经网络和偏最小二乘回归模型,研究冷冻明胶模型食品的无损质量评估,证明了基于AI的低场NMR在食品代谢物无损质量评估方面的有效性。
除了直接从低场NMR谱图中提取化学信息或执行分析任务外,另一个潜在方向是使用深度学习模型通过AI算法重建低场NMR数据,以实现接近高场仪器的光谱分辨率。深度学习在识别含噪或重叠谱图中复杂和非直观信息方面的卓越能力使得这些目标可以实现,有望使低场NMR能够直接分析以前只有高场NMR仪器才能检测的复杂代谢混合物。
尽管AI驱动的低场NMR在增强多种生物和食品组分中小分子代谢物的谱图质量方面取得了显著进展,但其在小分子代谢分析方面的局限性仍然突出。主要原因之一是低场仪器采集的原始数据固有的低分辨率导致了物理信息的根本性损失。在复杂的小分子代谢混合物(如多组分代谢提取物或工业添加剂)中,这导致初始谱峰重叠如此严重,即使先进的DL模型也难以充分解析结构相似的小代谢物的紧密间隔峰。灵敏度降低也限制了低浓度代谢分析物的检测,需要更高浓度的样品或更长的采集时间,从而损害高通量分析。未解决的挑战包括缺乏统一的代谢物低场到高场谱图特征映射标准,导致不同DL模型的结果不一致,以及模型在代谢定量方面的定量准确性不足。此外,对于具有复杂耦合模式的小代谢物分子,当前基于DL的光谱重建通常无法保留微妙的耦合信息,限制了对未知代谢物的结构解析能力。未来的研究应优先开发能够利用多维特征提取的复杂深度神经网络,这可能为低场NMR系统的光谱重建和定量分析解锁前所未有的能力,促进其在代谢物和药物研究中的应用。此外,设计专门针对低场代谢数据优化的端到端轻量级深度学习模型,将更有利于这些模型直接部署在低场硬件上进行快速代谢分析,使其更容易进入临床代谢物研究。
代谢物和药物研究的纯位移波谱
尽管由于优越的灵敏度和分辨率,高场NMR在代谢物研究中比低场更常用,但常规¹H NMR谱图在分析复杂代谢混合物时仍面临重大挑战。有限的化学位移范围,加上J耦合引起的广泛谱峰分裂,常常导致严重的谱峰重叠,使得代谢物归属和定量极其困难。这种光谱分辨率的内在限制最终限制了其更广泛的应用。为了解决这一普遍瓶颈,AI赋能的纯位移波谱已成为一种关键解决方案,旨在简化复杂谱图的同时保留关键分析信息。
质子NMR是使用最广泛的NMR技术。纯位移技术可以将多重峰转化为单峰,以提高光谱分辨率,降低代谢混合物谱图分析的难度。已经开发了几种纯位移方法,如Zangger-Sterk(ZS)和通过啁啾激发的纯位移(PSYCHE)。然而,纯位移谱图的灵敏度相对于标准¹H谱图显著降低,通常降低一到两个数量级,不利于检测低丰度代谢物。此外,纯位移谱图中的分块伪影和强耦合伪影可能导致误解。与其他纯位移方法相比,PSYCHE方法具有相对较高的灵敏度和对强耦合的更好耐受性。然而,它需要伪二维(2D)采集模式,导致采集时间长,无法满足高通量代谢物分析的需求。
最近,一些研究人员采用深度学习来改进纯位移方法。Zheng等人率先将NUS与残差神经网络结合用于加速PSYCHE谱图的采集,有望满足高通量代谢样品分析的需求。Zhan等人引入了轻量级模型、轻量级注意力辅助模型和轻量级注意力辅助双域模型,Shen等人开发了时频网络,所有这些都进一步优化了用于代谢分析的纯位移谱图的采集效率和谱图质量。Zheng等人利用PSYCHE实验中的大翻转角来提高灵敏度,并通过残差神经网络去除重耦合伪影,促进了低丰度代谢物的检测。此外,Yang等人开发了一个基于CNN的网络来处理低质量的实时ZS谱图,实现了显著的质量提升,可能适用于实时代谢分析。上述网络的训练数据均为模拟的NMR谱图,为其后续在实际代谢样品分析中的应用奠定了基础。
尽管上述方法在一定程度上提高了纯位移谱图的质量,但并未从根本上解决基于脉冲序列的纯位移方法的固有局限性。而且,某些指标甚至有所恶化,例如使用网络模型导致的谱图定量信息失真。为了解决这个问题,Yang等人提出了一种创新的替代方案:通过基于CNN的神经网络(称为SE2CSNet)检测具有不同回波时间的自旋回波谱图中的相位变化,获得超高分辨率的化学位移二值谱,如图2所示。他们的方法利用了物理原理:在自旋回波脉冲序列中,具有不同耦合模式和耦合常数的谱峰在不同演化时间表现出独特的相位特性。该方法不受强耦合和分块伪影的影响,同时保持了与常规一维¹H谱图相当的灵敏度,从根本上解决了当前流行的纯位移方法在灵敏度-分辨率方面的权衡,为解决复杂代谢混合物中的谱峰重叠提供了一种新范式。不幸的是,该方法只提供化学位移信息,不提供谱峰强度信息,这限制了其在代谢定量中的直接应用。尽管存在这种局限性,SE2CSNet为从根本上解决纯位移技术固有的局限性提供了潜在的范式转变。
尽管AI为传统的纯位移方法注入了新的活力,但将这些进展转化为稳健的代谢物研究工具仍然具有挑战性。灵敏度-光谱分辨率权衡仍然是代谢物研究的核心瓶颈:提高分辨率以解析重叠的小分子代谢物信号通常会导致灵敏度降低,难以检测复杂代谢混合物(如血浆或药物制剂中的杂质)中的低丰度分析物。在具有密集官能团的小分子谱图中,强耦合伪影持续存在,AI模型在去除这些伪影时常引入定量失真。基于自旋回波的纯位移方法有望从根本上解决上述问题。此外,代谢物应用中未解决的挑战包括开发兼顾快速采集和灵敏度的二维纯位移方法,缺乏能够在复杂小分子代谢混合物中同时保留化学位移和谱峰强度信息的AI模型,以及无法在不产生信号失真的情况下处理生物基质中的强耦合系统。
未来的研究应致力于开发先进的神经网络和损失函数,从多个自旋回波谱图甚至单张¹H NMR谱图中提取具有准确定量信息的高质量一维纯位移谱图,这对于代谢物研究中的代谢物鉴定和定量至关重要。在此基础上,可以进一步扩展到基于自旋回波数据获得多维纯位移谱图。例如,通过设计神经网络精确识别自旋回波谱图中的耦合自旋对,结合基于二维同核相关谱(COSY)物理原理的对称性约束损失函数,可能直接从一维自旋回波谱图获得高质量的二维纯移COSY谱图,为代谢物鉴定提供更多结构信息。此外,通过改变梯度对中自旋回波序列的梯度强度,可以获得包含扩散信息的多个自旋回波谱图。通过合适的神经网络,有可能直接获得二维纯位移扩散排序谱(DOSY),这可以实现混合代谢物的分离和分析。如果能够仅从多个自旋回波谱图获得高质量的多维纯移谱图,这一进展将有效解决常规多维纯位移实验中灵敏度低和采集时间长的固有局限性。因此,纯位移技术将对高通量代谢物应用和药物研究变得可行。
代谢组学中的代谢物和生物标志物鉴定
AI驱动的低场NMR优化和纯位移波谱技术提供了解决NMR在代谢物研究中核心技术瓶颈的方法,如便携性-分辨率权衡和谱峰重叠,从而能够获取高质量的代谢谱图和高通量数据采集。利用这些技术进步,AI驱动的代谢物鉴定和疾病相关生物标志物发现已成为AI-NMR整合的核心应用方向,在这一过程中,大数据量在训练高性能AI模型方面的优势以及宏观场景研究的合理性得到了充分体现,这是将NMR代谢物研究成果转化为实际应用的关键。
NMR波谱长期以来一直是代谢组学的基石,能够对多种生物样本中的代谢物进行无损鉴定和定量。然而,解析NMR衍生的代谢物谱图需要大量专业知识,虽然传统分析方法稳健,但在挖掘日益庞大的高通量数据集中复杂的代谢模式时可能会遇到问题。随着代谢物数据规模呈指数级增长,传统统计方法对这些大数据的利用率下降,导致大量有价值的生物信息未被挖掘。AI的整合现已引发了基于NMR代谢物研究的范式转变。在大量数据上训练的AI算法可以高效分析高通量NMR代谢物生成的海量复杂数据集,捕获低丰度代谢物的微妙谱图模式,并挖掘非直观的代谢关联,促进稳健的代谢物鉴定和生物标志物发现,应用于临床疾病诊断和精准医学等领域。
早期应用利用DL超越了偏最小二乘(PLS)等传统方法在代谢组学中鉴定代谢物和生物标志物的能力。Date和Kikuchi开发了DNN-MDA,将深度神经网络与平均精度下降方法结合用于二分类,在大数据集上展示了优于PLS、支持向量机(SVM)和随机森林(RF)的分类性能,尽管在有限或有偏数据上其功效减弱。随后的创新扩大了AI在代谢组学中的应用范围:Asakura等人的EDNN解决了代谢表型分析中的回归挑战,而Wang等人展示了使用代谢组学谱图进行快速病原体分类(99.2%准确率),尽管在受控实验室环境中得到验证。
此外,AI彻底改变了复杂代谢混合物分析和代谢物鉴定,并开发了一系列在大型谱图数据集上训练的AI工具,以提高代谢组学中代谢物鉴定的效率和准确性。Reher等人开发了基于CNN的工具SMART 2.0,在JEOL数据库的25434个HSQC谱图上训练,用于分析混合物,能够高效筛选天然产物提取物,并促进了如symplocolide A(一种新的嵌合大环内酯)的发现,这大大提高了天然代谢物发现的效率。Kim等人的基于U-Net的SMART-Miner在从HMDB和BMRB数据库获得的大量¹H-¹³C HSQC谱图数据上训练,进一步自动化了二维¹H-¹³C HSQC谱图中的峰识别,尽管当查询峰对应于多个分子时仍存在歧义,但实现了>60%的精确度/召回率,实现了代谢物谱峰的自动鉴定。机器学习驱动的工具如NMR-TS超越了依赖数据库的匹配,通过循环神经网络(RNN)和蒙特卡洛树搜索从目标谱图从头生成分子结构和相应的NMR谱图,帮助鉴定代谢物,解决了代谢组学中难以鉴定新型代谢物的问题。此外,异方差分析(HetCA)集成的ELINA将¹H NMR谱图特征与生物活性联系起来,通过将谱图信号与生物测定数据相关联,促进定向发现生物活性代谢物,如从真菌提取物中分离出强效类固醇硫酸酯酶(STS)抑制剂。层次聚类分析(HCA)结合¹³C NMR已被证明在复杂基质中解决结构相关化合物是有效的,例如地衣中的缩酚酸和植物提取物中的生物碱,通过分组相似的化学位移进行快速解卷积。像MixONat这样的基于分布算法的工具利用¹³C NMR数据区分天然产物和代谢组学样品中的立体异构体和类似物,而MADByTE则能够通过从TOCSY和HSQC谱图生成和比较自旋系统特征,无需依赖参考库即可分析复杂混合物。这些基于AI的解卷积方法不仅通过减轻代谢组学中的谱图复杂性和基质干扰,提高了代谢物鉴定的效率和准确性,而且扩展到检测消费品中的非法掺假物及其衍生物,突显了它们在确保代谢组学生物标志物发现和验证的可靠性方面的广泛用途。
脂蛋白和大分子生物标志物分析
脂蛋白作为脂质-蛋白质复合物和体内脂质代谢物的关键载体,是代谢组学的重要靶点。其异常的浓度、颗粒大小和脂质组成是高脂血症等代谢紊乱的核心表现,使脂蛋白相关谱图成为心脏代谢疾病的关键代谢生物标志物。近年来,NMR波谱已成为高脂血症研究和临床诊断中日益重要的工具,因为它可以利用不同的磁共振特征测量血浆脂蛋白中关键化学基团的信号(如颗粒表面的磷脂、核心中的非酯化胆固醇和胆固醇酯,以及甘油三酯的末端甲基),并准确确定关键的脂蛋白特征,包括不同类别和亚型的质量、颗粒浓度和颗粒大小。
AI进一步提高了脂蛋白相关代谢分析的准确性和效率。AlaKorpela等人开发了人工神经网络,Hiltunen等人设计了深度神经网络,基于人血浆的¹H NMR谱图定量脂蛋白脂质。这些模型能够快速准确地定量主要脂蛋白组分,包括极低密度脂蛋白(VLDL)甘油三酯、低密度脂蛋白(LDL)、中间密度脂蛋白(IDL)和高密度脂蛋白(HDL)胆固醇。与传统方法(如Friedewald估算法)相比,这些基于AI的方法克服了关键限制,并在短时间内提供更全面可靠的脂蛋白谱图。这一进步至关重要,因为不同的脂蛋白颗粒在脂质代谢中扮演不同角色,并与动脉粥样硬化和其他心血管疾病的关联程度不同,为临床医生提供了对高脂血症患者个体脂质状态的更深入理解。
此外,虽然传统NMR方法已经能够识别各种脂蛋白亚型,但AI驱动的方法可以进一步细化这种分类。这至关重要,因为特定亚型,如小而密的LDL颗粒,与疾病风险关联更强。因此,改善亚型分辨率有助于更早识别高风险个体。尽管取得了这些进展,未解决的挑战包括缺乏能够跨不同人群(特别是患有合并症如2型糖尿病的患者)泛化脂蛋白分析的AI模型。此外,区分脂蛋白结合的脂质与游离脂质仍然困难,并且准确量化特定亚型内的分子脂质物种仍然有限。
未来的进展将优先优化AI算法,以更好地处理NMR谱图固有的复杂性和变异性,提高脂蛋白定量和脂质组成分析的准确性,并通过分析治疗引起的脂蛋白谱图变化,实现个体对降脂治疗反应的精确预测。
复杂生物样品的谱图处理
尽管小分子代谢物和大分子脂蛋白如上所述通常独立分析,但它们在常规一维谱图中并非孤立存在。临床生物样品,如血浆和血清,天然同时包含两者,导致常规NMR谱图中存在显著的信号干扰。最近的突破在一定程度上解决了NMR在代谢物数据处理中的特定技术问题,进一步提高了高通量代谢物分析的效率。虽然标准的一维核欧沃豪斯效应谱(NOESY)预饱和技术能够高效地从血浆或血清等生物体液中获取代谢物谱图,但它固有地将大分子脂蛋白和小分子的信号混合在一起,重叠的信号影响了小分子代谢物的准确分析。尽管专门的方法如一维扩散编辑NMR和CPMG可以分离这些信号,但它们应用于批量样品仍然耗时,限制了高通量分析。为了克服这一点,Xiao等人开发了一个基于U-Net的网络名为SENNet,处理常规一维NOESY预饱和谱图,实现了大分子和小分子信号的自动分离。SENNet从一维NOESY预饱和谱图中实现大分子和小分子信号分离的工作流程如图3所示。该方法无需CPMG或扩散编辑实验,同时产生了与传统方法在统计学上等效的主成分分析(PCA)结果。
最近,Vignoli等人提出了一种高效的机器学习策略,以血清样品为例,直接从单次采集的一维NOESY谱图中推导出三个不同的一维NMR谱图,包括CPMG、扩散编辑和JRES在F2维度的正一维投影,旨在简化分析工作流程并提高基于NMR的代谢物研究的通量。研究人员构建了一个完整的计算流程,集成谱图预处理和分箱以及快速偏最小二乘回归模型,并使用包含1753个血清样品(分为训练集、验证集和独立测试集)的大型多中心数据集验证了模型性能。此外,基于预测的CPMG和扩散编辑谱图使用随机森林算法进行的代谢组学指纹分析,在区分急性心肌梗死后不同预后患者方面实现了与基于原始谱图相当的性能,从而证实了预测谱图用于临床代谢组学应用的可靠性。基于大数据量的多中心验证有效验证了其对实验变异的鲁棒性,使该模型更适合多中心联合诊断和研究的宏观临床场景。
为了解决一维NMR谱图中谱峰重叠的挑战和二维NMR在代谢物应用中繁琐的数据处理流程,Pollak等人开发了一种与AI算法集成的自动数据分析方法。他们评估了四种分类模型,包括偏最小二乘判别分析、人工神经网络分类器、梯度提升树分类器和深度神经网络分类器,结合自动峰选择策略,并使用标准代谢物混合物、海葵提取物和小鼠粪便样品验证了该方法的有效性。这种自动化方法避免了对专业NMR知识的需求,并能够将二维NMR原始谱图转换为用于代谢物鉴定和相对定量的定量信息。
大数据与临床宏观场景应用
随着小分子和大分子的分析瓶颈都被解决,大数据量在训练高性能AI模型方面的优势得到了充分体现,使得基于NMR的代谢物研究能够转化为宏观场景的临床实践。大数据提供了跨越不同遗传背景和疾病阶段的生物多样性的全面信息。传统统计方法受限于线性假设,难以充分挖掘海量高通量数据集中隐藏的复杂生物信息。相反,在如此庞大的数据集上训练深度学习模型,允许算法捕获非线性代谢关联和隐藏的结构模式,最终为个性化医学奠定基础。
Buergel等人开发了基于NMR的代谢组学谱图,结合在UK Biobank的168个循环代谢标志物上训练的深度残差多任务神经网络,预测个体患24种常见疾病的风险,这是代谢组学中基于大数据量的典型宏观场景研究。通过分析血液样品的1D ¹H NMR谱图,他们建立了代谢组学状态与这些疾病发病率之间的关联。研究人员进一步量化了整合年龄、性别和代谢组学谱图对15个终点10年结果的预测性能。这项研究充分验证了基于大数据量的宏观场景研究的合理性:大样本量覆盖了人群的个体差异,使预测的疾病风险模型更具普适性,适用于临床人群筛查,是AI-NMR代谢组学应用于临床宏观研究的经典案例。
宏观规模的代谢组学研究进一步验证了脂蛋白相关生物标志物的临床价值。Zhou等人将无监督学习应用于118,001名UK Biobank参与者的血浆代谢组学谱图,鉴定了11个与445种心脏代谢表型和101个遗传位点相关的稳健代谢簇(包括富含甘油三酯的脂蛋白,TG-RL)。这些脂蛋白相关的代谢特征在预测缺血性心脏病、2型糖尿病和高血压方面,与传统脂质指标相比表现出优越的预测能力,证实了脂蛋白亚型及其脂质组分是高脂血症相关疾病风险分层的核心代谢组学生物标志物。
未解决的挑战与展望
代谢物既包括小分子(如初级/次级代谢物)也包括大分子生物分子(如脂蛋白),NMR的局限性跨越两者,目前的AI方法仍无法完全解决。对于小分子,NMR的低灵敏度限制了对复杂生物体液中低丰度代谢物(如信号分子或药物代谢物)的检测,即使借助AI,结构相似的小分子(如异构氨基酸)的信号重叠仍然难以解决。对于脂蛋白等大分子生物分子,NMR难以在不损害任一完整性的情况下高效地将其信号与小分子代谢物分离,导致两类代谢物的信息丢失。除了NMR固有的局限性外,AI在代谢物研究中的应用也面临未解决的挑战:AI“黑箱”模型在代谢物鉴定方面的生物学可解释性差,难以解释模型预测结果的生物学意义,影响了基于AI的代谢物研究结果在临床实践中的接受度。此外,缺乏整合不同样本类型(血浆、尿液、组织)的NMR代谢物数据与其他组学(如转录组学)的标准化方案,限制了对代谢调控机制的深入挖掘。此外,不同NMR平台和实验室间检测低丰度代谢物的可重复性不足,限制了实验室研究中发现的潜在生物标志物向临床实践的转化。
未来的进展必须优先克服这些障碍,以释放AI在基于NMR代谢物研究中的全部潜力。数据稀缺是一个持续存在的瓶颈,可以通过两种互补策略来缓解:合成数据生成以扩充样本有限的利基代谢研究的训练集,以及从在大型公共NMR数据库(如BMRB或HMDB)上预训练的基础模型进行迁移学习,以使学习到的特征适应此类利基任务。随着人工智能不断重塑NMR代谢物研究,智能模型向广泛临床应用的过渡面临数据可用性的关键瓶颈。深度学习算法需要大量多样化的训练数据才能实现高鲁棒性,但共享大规模临床谱图受到严格的患者隐私法规的严重限制,导致宝贵数据被隔离在机构壁垒中。为了克服这些限制,联邦学习成为未来AI赋能代谢物研究的一种有前景的范式。这种方法实现了去中心化的模型训练,原始患者谱图永远不会离开本地机构。参与医院使用其专有数据集本地训练算法,仅与中央聚合服务器共享更新的模型参数以构建稳健模型。该策略在保护患者隐私的同时,允许算法从更广泛的人群中学习,提高了神经网络对不同实验室硬件噪声变化的适应性。
为了建立模型的可信度,整合可解释AI框架至关重要:这些工具(如注意力图、Shapley加法解释(SHAP)值)可以解码预测背后的决策逻辑(例如哪些谱峰驱动了生物标志物判定),而不确定性量化方法将标记低置信度输出,这对于避免错误的生物学推断至关重要。增强泛化性将需要开发领域自适应架构,使其能够抵御代谢物研究中常见的实验变化,如pH、温度或NMR仪器参数的波动。此外,传统的分析方法通常仅捕获代谢状态的静态谱图,并且难以解释随时间变化的改变。专门设计用于序列建模的先进深度学习模型可以长时间追踪动态代谢波动。这种能力将使研究人员能够以前所未有的精确度持续监测疾病进展和评估治疗效果。
超越当前能力,新兴趋势指向多模态数据驱动的AI,将基于NMR的代谢物研究与其他组学整合以实现整体系统生物学。随着这些协同作用的成熟,AI赋能的NMR代谢物研究有望在生物标志物发现、动态代谢监测和个性化医学方面解锁前所未有的效率,最终将谱图转化为生物学知识。
人工智能与核磁共振(NMR)波谱的结合预示着代谢物研究分子分析的变革时代,涵盖科学和临床领域。通过克服NMR在代谢物研究中的长期局限性,如灵敏度、分辨率、采集时间和谱图复杂性,以及低场仪器的便携性-分辨率权衡,AI赋能的方法正在重塑NMR在代谢物研究中的能力。诸如从低场NMR重建高保真类高场谱图和通过神经网络生成无伪影纯移谱图等创新,体现了AI如何解决NMR的基本技术限制,为高质量、高通量和便携式代谢分析奠定了坚实基础。除了技术增强,这种协同作用还为代谢物研究开辟了新前沿:实现用于精准医学的高通量代谢物分析,加速代谢物和疾病相关生物标志物(包括高脂血症中与脂蛋白相关的标志物)的发现,并通过大数据驱动的AI挖掘实现代谢物研究从实验室基础研究到临床宏观场景应用的转化。
此外,AI在基于NMR代谢物研究方面的未来发展不仅将持续进行算法创新,还将加速实际部署和可及性。紧凑、经济的低场NMR硬件与嵌入式AI处理的结合,在将NMR代谢物诊断直接带入医院环境和现场检测场景方面具有巨大潜力。AI对来自患者血液样品或现场代谢样品的代谢谱图进行实时分析,可为即时诊断、治疗监测和个性化风险分层提供快速、可操作的见解,使基于NMR的代谢物研究超越专业实验室,进入常规临床和工业工作流程。此外,实现AI在基于NMR代谢物研究方面的全部影响,需要将新开发的AI方法直接整合到波谱仪软件中。将训练好的模型(如用于纯移重建、去噪、NUS重建或代谢物峰识别的模型)作为用户友好且自动化的模块嵌入商业波谱仪平台,将简化代谢物分析工作流程,并实现无需用户具备深厚AI专业知识的实时、智能数据采集和分析,从而降低基于NMR代谢物研究的技术门槛并促进其广泛应用。
随着人工智能的不断发展,其在基于NMR代谢物研究中的作用超越了单纯的数据处理,并催化了向智能、预测性和民主化分析平台的范式转变。这一整合标志着在充分实现NMR在科学发现和常规临床诊断方面的潜力迈出的关键一步。最终,AI与NMR的深度融合将持续解锁前所未有的能力,使基于NMR的代谢组学在精准医学、食品科学和人类健康中发挥日益重要的作用。

生物通微信公众号
微信
新浪微博


生物通 版权所有