高能化合物的使用对全球安全构成了日益严重的威胁,近年来在武装冲突、恐怖主义爆炸事件和其他与爆炸物相关的犯罪中使用的此类化合物数量不断增加[1]。因此,准确及时地识别潜在的高能化合物对于炸弹处理单位来说至关重要,以便安全地封锁和中和犯罪现场。目前最先进的高能化合物检测技术包括离子迁移率和质谱法。尽管这些方法具有高灵敏度和选择性,但设备体积庞大,分析成本高昂、耗时较长,并且需要受过培训的人员来操作和解释数据[2]。理想情况下,高能化合物的检测应具备快速、便携性,并能在复杂的现实世界场景中提供高度准确和选择性的结果。目前市面上可用的技术如近红外光谱、傅里叶变换红外光谱和拉曼光谱虽然具有高选择性,但缺乏痕量检测所需的灵敏度,且常常会产生较高的背景信号[2]、[3]、[4]、[5]。此外,由于暗色或深色高能材料可能引发火灾,这些方法还存在安全隐患[3]。
电化学技术作为一种有前景的替代方案出现,它具有高灵敏度、便携性和快速响应时间,非常适合现场应用[2]、[6]、[7]、[8]。特别是伏安法已被证明能有效检测多种含硝基的高能化合物,包括硝基芳香烃[7]、[9]、[10]、[11]、[12]、硝胺[7]、[10]、[13]、[14]、硝基烷烃[14]、[16]和硝酸酯[9]、[10]、[14]。这类化合物中的硝基易于发生还原反应,产生特定于化合物的伏安图谱,这些图谱可作为电化学指纹(Electrochemical Fingerspprints,EFs),从而在电化学传感器中实现它们的区分[17]。然而,据我们所知,此前还没有研究充分利用伏安法检测的潜力,在单一的综合研究中区分涵盖所有四类的高能化合物。
对于法医调查人员来说,正确识别未知样本至关重要,尤其是在涉及高能化合物的情况下,因为结果直接影响安全处理程序。伏安传感器中常用的方法是根据分析物的特征峰电位来进行识别。虽然这种方法在简单系统中有效,但在处理大量目标分析物或结构相似的物质时,由于信号重叠和实验参数(如温度、浓度)导致的峰位变化,这种策略会变得不可靠,可能导致误识别。为了克服这些限制,人们采用了更丰富的伏安信号表示方法,例如扩展的峰参数集、完整的原始伏安图或降维特征,为化合物分类提供了更具区分性的基础。为了处理这些更丰富的数据表示,开发了多种化学计量方法来处理伏安信号,包括离散小波变换(DWT)[10]、[18]、[19]、[20]、[21]、[22]、离散余弦变换(DCT)[23]、快速傅里叶变换(FFT)[24]、[25]、[26]、顶帽滤波器(top-hat filter)[27]和主成分分析(PCA)[28]、[29],用于去噪、改善峰分离和/或数据降维。
为了进一步增强识别能力,还使用了先进的分析工具进行数据分析,如机器学习(ML)算法[30]、[31]。选择最佳分类模型很大程度上取决于训练数据的特性,因为模型性能会受样本大小、类别平衡、特征复杂性和特征相关性等因素的影响[32]、[33]。因此,文献中仅有少数ML算法被专门应用于伏安数据,包括梯度提升(Gradient Boosting)[32]、k-最近邻(k-Nearest Neighbor)[34]、人工神经网络(Artificial Neural Network,ANN)[10]、[18]、[19]、[21]、线性判别分析(Linear Discriminant Analysis,LDA)[23]和随机森林(Random Forest)[32]、[33]、[34]、[35]。后者被证明是准确性和鲁棒性最高的分类方法之一[36]、[37],特别适用于复杂非线性数据集[38],但尚未应用于高能化合物的电化学识别。
在这里,我们首次报道了使用随机森林基于伏安数据对多种高能化合物进行分类的应用。具体来说,我们研究了其在正确识别十种高能化合物和一种二元混合物方面的适用性,这些化合物包括2,4,6-三硝基甲苯(TNT)、1,3,5-三硝基苯(TNB)、苦味酸(PA)、梯恩梯(tetryl)、1,3,5-三硝基-1,3,5-三嗪烷(RDX)、1,3,5,7-四硝基-1,3,5,7-四唑烷(HMX)、硝基甲烷(NM)、2,3-二甲基-2,3-二硝基丁烷(DMNB)、硝化甘油(NG)、赤藓糖四硝酸酯(ETN)和化合物B(Comp. B)。所选分析物涵盖了所有主要的高能化合物类别,即硝基芳香烃、硝胺、硝基烷烃和硝酸酯,代表了实际检测场景中常见的军用高能化合物。
提出了三种类型的训练集,分别基于:(1)提取的峰参数;(2)完整的原始伏安数据;(3)经过DWT处理的数据。这些数据集涵盖了由于采样和纯度不规则导致的分析物浓度波动范围,这对于现场部署尤为重要。评估了模型在受控样本和盲样本识别方面的性能和分类准确率。此外,还为它们的预测分配了置信度水平,为评估分类可靠性提供了定量指标。最终,这项工作提出了一种基于随机森林的机器学习模型方法,该方法在覆盖广泛浓度范围的数据上进行训练,实现了高能化合物的准确识别,适用于现场部署。