从原始信号到可靠的电化学传感:支持能量化合物识别的机器学习数据预处理策略

时间:2026年1月25日
来源:Sensors and Actuators B: Chemical

编辑推荐:

硝基化合物检测中,基于随机森林的机器学习算法通过分析原始伏安数据及DWT处理后数据,实现了十种硝基化合物及混合物的分类,准确率最高达97.3%,并提供置信度评估。该浓度无关方法通过多维度特征提取解决信号重叠问题,适用于复杂场景下的快速检测。

广告
   X   

达恩·范格芬(Daan Vangerven)|朱莉娅·马祖尔库(Julia Mazurków)|巴特·西莫恩斯(Bart Simoens)|卡罗利恩·德瓦尔(Karolien De Wael)
安特卫普工程、光电化学与传感(A-PECS)团队,安特卫普大学生物科学工程系,比利时安特卫普2020

摘要

在武装冲突、恐怖主义和犯罪活动中,高能化合物的广泛使用凸显了快速、准确且可在现场部署的检测与识别方法的需求。电化学传感技术提供了一个有前景的解决方案,因为许多高能化合物含有能够发生电化学还原的硝基,从而产生特定于化合物的电化学指纹。然而,信号重叠和浓度变化使得识别过程变得复杂。在这项研究中,我们提出了一种基于随机森林(Random Forest)的机器学习算法,利用方波伏安法(square wave voltammetry)来识别十种含硝基的高能化合物和一种二元混合物。伏安响应数据是在50至200微克/毫升(µg/mL)的浓度范围内使用自制的丝网印刷电极收集的。基于不同的输入数据开发了六个随机森林模型:(1)提取的峰参数;(2)原始伏安数据;(3)经过离散小波变换(Discrete Wavelet Transform,DWT)处理的数据。使用默认超参数训练的模型在模拟实际场景的样本测试中取得了最高的整体分类准确率。置信度分数有助于对模型预测进行定量评估,其中基于原始伏安数据的模型提供了最可靠的结果。本研究展示了一种新型的、与浓度无关的、基于机器学习的电化学策略,可用于现场环境中高能化合物的准确识别。

引言

高能化合物的使用对全球安全构成了日益严重的威胁,近年来在武装冲突、恐怖主义爆炸事件和其他与爆炸物相关的犯罪中使用的此类化合物数量不断增加[1]。因此,准确及时地识别潜在的高能化合物对于炸弹处理单位来说至关重要,以便安全地封锁和中和犯罪现场。目前最先进的高能化合物检测技术包括离子迁移率和质谱法。尽管这些方法具有高灵敏度和选择性,但设备体积庞大,分析成本高昂、耗时较长,并且需要受过培训的人员来操作和解释数据[2]。理想情况下,高能化合物的检测应具备快速、便携性,并能在复杂的现实世界场景中提供高度准确和选择性的结果。目前市面上可用的技术如近红外光谱、傅里叶变换红外光谱和拉曼光谱虽然具有高选择性,但缺乏痕量检测所需的灵敏度,且常常会产生较高的背景信号[2]、[3]、[4]、[5]。此外,由于暗色或深色高能材料可能引发火灾,这些方法还存在安全隐患[3]。
电化学技术作为一种有前景的替代方案出现,它具有高灵敏度、便携性和快速响应时间,非常适合现场应用[2]、[6]、[7]、[8]。特别是伏安法已被证明能有效检测多种含硝基的高能化合物,包括硝基芳香烃[7]、[9]、[10]、[11]、[12]、硝胺[7]、[10]、[13]、[14]、硝基烷烃[14]、[16]和硝酸酯[9]、[10]、[14]。这类化合物中的硝基易于发生还原反应,产生特定于化合物的伏安图谱,这些图谱可作为电化学指纹(Electrochemical Fingerspprints,EFs),从而在电化学传感器中实现它们的区分[17]。然而,据我们所知,此前还没有研究充分利用伏安法检测的潜力,在单一的综合研究中区分涵盖所有四类的高能化合物。
对于法医调查人员来说,正确识别未知样本至关重要,尤其是在涉及高能化合物的情况下,因为结果直接影响安全处理程序。伏安传感器中常用的方法是根据分析物的特征峰电位来进行识别。虽然这种方法在简单系统中有效,但在处理大量目标分析物或结构相似的物质时,由于信号重叠和实验参数(如温度、浓度)导致的峰位变化,这种策略会变得不可靠,可能导致误识别。为了克服这些限制,人们采用了更丰富的伏安信号表示方法,例如扩展的峰参数集、完整的原始伏安图或降维特征,为化合物分类提供了更具区分性的基础。为了处理这些更丰富的数据表示,开发了多种化学计量方法来处理伏安信号,包括离散小波变换(DWT)[10]、[18]、[19]、[20]、[21]、[22]、离散余弦变换(DCT)[23]、快速傅里叶变换(FFT)[24]、[25]、[26]、顶帽滤波器(top-hat filter)[27]和主成分分析(PCA)[28]、[29],用于去噪、改善峰分离和/或数据降维。
为了进一步增强识别能力,还使用了先进的分析工具进行数据分析,如机器学习(ML)算法[30]、[31]。选择最佳分类模型很大程度上取决于训练数据的特性,因为模型性能会受样本大小、类别平衡、特征复杂性和特征相关性等因素的影响[32]、[33]。因此,文献中仅有少数ML算法被专门应用于伏安数据,包括梯度提升(Gradient Boosting)[32]、k-最近邻(k-Nearest Neighbor)[34]、人工神经网络(Artificial Neural Network,ANN)[10]、[18]、[19]、[21]、线性判别分析(Linear Discriminant Analysis,LDA)[23]和随机森林(Random Forest)[32]、[33]、[34]、[35]。后者被证明是准确性和鲁棒性最高的分类方法之一[36]、[37],特别适用于复杂非线性数据集[38],但尚未应用于高能化合物的电化学识别。
在这里,我们首次报道了使用随机森林基于伏安数据对多种高能化合物进行分类的应用。具体来说,我们研究了其在正确识别十种高能化合物和一种二元混合物方面的适用性,这些化合物包括2,4,6-三硝基甲苯(TNT)、1,3,5-三硝基苯(TNB)、苦味酸(PA)、梯恩梯(tetryl)、1,3,5-三硝基-1,3,5-三嗪烷(RDX)、1,3,5,7-四硝基-1,3,5,7-四唑烷(HMX)、硝基甲烷(NM)、2,3-二甲基-2,3-二硝基丁烷(DMNB)、硝化甘油(NG)、赤藓糖四硝酸酯(ETN)和化合物B(Comp. B)。所选分析物涵盖了所有主要的高能化合物类别,即硝基芳香烃、硝胺、硝基烷烃和硝酸酯,代表了实际检测场景中常见的军用高能化合物。
提出了三种类型的训练集,分别基于:(1)提取的峰参数;(2)完整的原始伏安数据;(3)经过DWT处理的数据。这些数据集涵盖了由于采样和纯度不规则导致的分析物浓度波动范围,这对于现场部署尤为重要。评估了模型在受控样本和盲样本识别方面的性能和分类准确率。此外,还为它们的预测分配了置信度水平,为评估分类可靠性提供了定量指标。最终,这项工作提出了一种基于随机森林的机器学习模型方法,该方法在覆盖广泛浓度范围的数据上进行训练,实现了高能化合物的准确识别,适用于现场部署。

部分摘录

材料与试剂

分析级硼酸、氯化钾和氢氧化钠购自德国达姆施塔特的默克公司(Merck,Darmstadt)。乙酸(99.8%分析级试剂)和磷酸(85%实验室级试剂)购自英国拉夫堡的费希尔科学公司(Fisher Scientific,Loughborough)。黑曲霉(Aspergillus niger)来源的葡萄糖氧化酶(151820.7 U/g)、牛肝来源的过氧化氢酶(BioReagent,3809 U/mg)以及d-(+)-葡萄糖(>99.5%)购自比利时的西格玛-奥德里奇公司(Sigma-Aldrich,Overijse)。

电化学指纹

在pH值为7的Britton-Robinson缓冲液中,使用裸露的SPE电极记录了十种高能化合物和一种混合物的电化学指纹(Electrochemical Fingerspprints,EFs)。图1显示了100微克/毫升(µg/mL)浓度下的EFs。硝基芳香烃化合物(TNT、TNB、PA和梯恩梯)以及混合物Comp. B和NM显示出独特的电化学指纹。然而,如表1所示,在50至200微克/毫升浓度范围内进行的80次测量显示,HMX和DMNB以及RDX和NG的峰电位存在重叠。

结论

在这项研究中,我们展示了使用监督学习,特别是随机森林分类方法,对含硝基的高能化合物进行电化学识别。系统地评估了三种类型的输入数据(提取的峰参数、原始伏安数据和经过DWT处理的数据)对分类性能的影响,以评估数据表示和模型调整的作用。

CRediT作者贡献声明

达恩·范格芬(Daan Vangerven):撰写——初稿、可视化、验证、软件开发、方法论设计、研究实施、数据分析、概念构思。巴特·西莫恩斯(Bart Simoens):撰写——审稿与编辑、资源协调、概念构思。朱莉娅·马祖尔库(Julia Mazurków):撰写——审稿与编辑、可视化、监督、概念构思。卡罗利恩·德瓦尔(Karolien De Wael):撰写——审稿与编辑、监督、项目管理、资金筹措。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了ChatGPT4来提高文章的可读性和语言表达。使用该工具/服务后,作者对内容进行了必要的审阅和编辑,并对发表文章的内容负全责。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:卡罗利恩·德瓦尔(Karolien De Wael)表示获得了比利时国防部的财务支持。如果还有其他作者,他们声明没有已知的可能影响本文所述工作的财务利益或个人关系。

致谢

该项目获得了比利时国防部(Royal Higher Institute for Defence)的资助,合同编号为23DEFRA006。FWO、IOF和BOF也对项目提供了支持。
达恩·范格芬(Daan Vangerven)于2024年在阿姆斯特丹大学和阿姆斯特丹自由大学(Vrije Universiteit van Amsterdam)获得了联合化学硕士学位。自2024年起,他在安特卫普大学生物科学工程系从事博士研究,隶属于A-PECS研究小组,由卡罗利恩·德瓦尔教授(Prof. Dr. Karolien De Wael)指导。他的研究主要集中在开发用于现场识别高能化合物的电化学传感器,作为ThreatSens项目的一部分。

生物通微信公众号
微信
新浪微博


生物通 版权所有