特征提取型表面增强拉曼光谱结合增强机器学习与深度学习用于COVID-19住院患者快速筛查

时间:2026年5月19日
来源:Talanta

编辑推荐:

研究人员开发了一种无标记特征提取型表面增强拉曼光谱(Surface-enhanced Raman spectroscopy, SERS)技术,并将其与增强机器学习(Machine Learning, ML)及深度学习(Deep Learning, DL)算法相

广告
   X   

研究人员开发了一种无标记特征提取型表面增强拉曼光谱(Surface-enhanced Raman spectroscopy, SERS)技术,并将其与增强机器学习(Machine Learning, ML)及深度学习(Deep Learning, DL)算法相结合,用于住院患者标本中SARS-CoV-2的快速筛查。研究采用Au NPs/fZrO2与Au NPs/pZrO2两种基底采集病毒特征光谱,将标本分类为CoV (+)与CoV (-)。所有光谱均经过宇宙射线尖峰去除、基线校正及Savitzky–Golay平滑等标准预处理,并通过霍特林T2(Hotelling’s T2)与Q残差分析剔除统计离群值。研究人员评估了多种归一化策略(无归一化、最小-最大归一化、z-score归一化)与特征提取方法(全谱、人工峰选择、主成分分析(Principal Component Analysis, PCA))。支持向量机(Support Vector Machine, SVM)分类器采用k折交叉验证训练,并在独立住院患者样本盲测中进行评估。结果显示,z-score归一化结合PCA获得了最高的验证准确率(>98%),但最小-最大归一化配合人工峰选择在泛化能力上表现最优,盲测准确率分别为87.5%(Au NPs/fZrO2)和75%(Au NPs/pZrO2)。为进一步提升分类性能,研究人员构建了基于人工神经网络(Artificial Neural Network, ANN)的DL模型,其盲测准确率最高分别达到93.75%(Au NPs/pZrO2)和87.50%(Au NPs/fZrO2)。研究表明,适当的数据处理可显著提升分类精度,有效的SERS检测依赖于基底设计、数据归一化、特征选择与分类模型的协同优化,从而为SARS-CoV-2等传染病的稳健早期筛查提供支撑。
本研究发表于《Talanta》,针对当前COVID-19大流行期间传统逆转录聚合酶链反应(Reverse Transcriptase Polymerase Chain Reaction, RT-PCR)检测耗时长、难以满足大规模快速筛查需求的不足,提出将无标记表面增强拉曼光谱(SERS)与机器学习和深度学习结合,以实现对住院患者临床标本的快速分类。研究背景显示,尽管SERS具有高灵敏度、分子指纹识别和低样品制备要求等优势,但在实际临床样本中,由于病毒颗粒与非靶分子信号重叠、生物基质复杂及患者间差异显著,导致光谱解析困难。为此,研究人员设计并优化了两种基于氧化锆的SERS活性基底Au NPs/fZrO2与Au NPs/pZrO2,旨在增强病毒特征信号并减少背景干扰。
在技术方法上,研究人员直接从住院患者鼻咽标本中采集SERS光谱,未做额外生化处理。数据预处理包括宇宙射线尖峰去除、基线校正、Savitzky–Golay平滑及基于Hotelling’s T2与Q残差的离群值剔除。随后比较了无归一化、最小-最大归一化、z-score归一化三种策略,以及全谱、人工峰选择、主成分分析(PCA)三种特征提取方法。机器学习阶段使用支持向量机(SVM)进行k折交叉验证,并引入人工神经网络(ANN)作为深度学习模型,在独立盲测集上评估性能。
研究结果分为多个部分。首先,在Distinction of spectral profiles of CoV (+) vs CoV (-) cohorts中,研究人员发现由于样本未经预处理,光谱中存在大量与目标无关的特征峰,且化学组成和浓度存在个体差异,这增加了分类难度。其次,在基底性能评估中,Au NPs/fZrO2与Au NPs/pZrO2表现出不同的信号增强效果,其中pZrO2基底结合ANN模型取得了最高的盲测准确率(93.75%)。第三,在归一化与特征提取策略的比较中,z-score归一化与PCA虽在验证集中获得>98%的准确率,但最小-最大归一化配合人工峰选择在独立盲测中展现了更强的泛化能力。第四,机器学习与深度学习模型对比表明,ANN能够更好地捕捉非线性光谱关系,克服传统SVM在高维数据上的局限。
讨论部分指出,临床样本的复杂性要求数据处理流程与基底设计协同优化,单一环节的提升不足以实现稳健诊断。研究人员强调,真实临床环境中的光谱变异源于宿主细胞碎片、黏液蛋白、免疫状态差异等因素,这对特征选择提出了更高要求。最终结论表明,特征提取型SERS结合优化的ML/DL框架能够在无需标记或复杂样品处理的情况下,实现对COVID-19住院患者的快速、可靠分类,为未来传染病现场筛查提供了一种可行的技术路径。该研究同时证明了基底形态调控、数据归一化策略和分类模型架构的协同优化是SERS临床诊断成功的关键要素。

生物通微信公众号
微信
新浪微博


生物通 版权所有