丹参(*Salvia miltiorrhiza*)作为传统中药的重要活性成分来源,其品质受地理环境影响显著。近年来,基于近红外(NIR)和 mid-infrared(MIR)光谱技术的原产地鉴别方法逐渐成为研究热点。本研究通过整合NIR与MIR光谱数据,结合多种预处理和变量筛选策略,构建了高效、稳定的原产地鉴别模型,为中药质量控制提供了新思路。
### 一、研究背景与意义
丹参作为唇形科药用植物的代表,其活性成分 salvianolic acids 和 tanshinones 的含量与产地土壤、气候条件密切相关。例如,山东产丹参以高含量丹参酮类成分著称,而四川产丹参则以 salvianolic acid B 为特征成分(Yao et al., 2022)。这种地理差异导致药材在化学组成和药理活性上存在显著分异,但传统鉴别方法如色谱分析存在耗时长、成本高、破坏样本等缺陷。近红外和红外光谱技术因其非破坏性、快速检测的特点,逐渐被应用于中药材的产地溯源。NIR光谱主要反映有机分子中氢键的振动信息,适用于整体化学成分的快速检测;MIR光谱则能捕捉分子键的基频振动,提供更精细的化学结构信息(Giorgini et al., 2023)。两者结合可弥补单一光谱的局限性。
### 二、研究方法与技术路线
研究采用多维度技术策略,具体包括以下关键步骤:
1. **样品采集与预处理**
采集山东、山西、河南、四川四地产的67批次丹参饮片样本。通过低温干燥(≤40℃)避免热降解,机械粉碎后过200目筛(MIR)或50目筛(NIR),确保样品均质性。MIR测试需与KBr粉末混合压片,NIR采用固体漫反射模式。
2. **光谱数据采集与优化**
- **NIR光谱**:范围10,000-4,000 cm⁻¹,扫描64次,积分分辨率8 cm⁻¹,背景扣除后取三次测量的平均值。
- **MIR光谱**:范围4,000-400 cm⁻¹,实时扣除CO₂和H₂O背景,三次扫描取均值。
预处理采用六种方法:多变量散射校正(MSC)、标准正态变量(SNV)、均值中心化(MC)、Savitzky-Golay平滑(SG)、一阶导数(1st)和二阶导数(2nd)。其中导数处理能有效消除基线漂移,如二阶导数在NIR中使模型准确率从90%提升至97%(图5a)。
3. **变量筛选与模型构建**
选用三类变量筛选算法:
- **无信息变量消除(UVE)**:通过引入随机噪声变量计算信息熵,筛选保留变量。
- **竞争自适应加权采样(CARS)**:基于特征相关性自适应调整权重。
- **随机森林(RF)**:通过特征重要性评估筛选关键波长。
采用偏最小二乘判别分析(PLS-DA)建模,通过 leave-one-out交叉验证评估模型性能。
### 三、主要研究结论
1. **单一光谱模型性能对比**
- **NIR模型**:最优模型为2nd-RF-PLS-DA,准确率96.72%。二阶导数能有效分离羟基(6900 cm⁻¹)、羰基(1650 cm⁻¹)等特征峰。
- **MIR模型**:SG-UVE-PLS-DA达到98.33%准确率。MIR对C=O伸缩振动(1650 cm⁻¹)和芳香环骨架振动(1510 cm⁻¹)敏感,结合SNV预处理可显著提升分辨率。
- **关键差异**:MIR在未预处理时准确率(93.18%)已高于NIR(90%),表明MIR对分子基频振动更敏感。
2. **光谱融合技术的突破性进展**
融合NIR与MIR数据后,模型性能显著提升:
- **2nd-UVE-PLS-DA融合模型**:准确率达100%,较单一光谱最高提升4.33%。例如,山东与四川样本在融合模型中可清晰分离(图5c)。
- **技术优势**:NIR捕捉整体化学信息(如O-H、C-H振动),MIR解析具体官能团(如羰基、芳环),融合后形成多维特征空间,减少单光谱噪声干扰。实验显示,融合模型对基线漂移和颗粒不均的鲁棒性提高约30%。
3. **变量筛选算法适用性分析**
- **UVE算法**:在融合数据中表现最优,尤其在二阶导数预处理下,变量数量从699(NIR-MSC+UVE)降至11(NIR-SG+UVE),同时保持100%准确率。
- **CARS算法**:在MIR单光谱中表现较差(仅62.96%),但融合数据结合SNV预处理后提升至96.83%,显示算法依赖预处理质量。
- **RF算法**:稳定性最佳,在NIR、MIR及融合数据中均保持85%-98%准确率,且特征重要性排序与已知化学成分(如丹参酮、芦丁)关联性高。
### 四、技术创新与科学价值
1. **预处理策略优化**
导数预处理(尤其是二阶导数)对消除基线漂移效果显著,NIR中使特征峰尖锐度提升40%,MIR中分离度提高35%。而MSC、SNV等校正方法在特定场景下效果更优,如SNV使MIR模型准确率从93.18%提升至97.83%。
2. **多源信息融合机制**
实验发现,NIR与MIR在2000-2500 cm⁻¹区域存在互补性:NIR的羟基 overtone(6900 cm⁻¹)与MIR的羰基基频(1650 cm⁻¹)共同构成化学指纹图谱。融合后模型对四地产丹参的区分度提升,尤其是河南与山西样本的交叉验证准确率从82%升至95%。
3. **算法组合的协同效应**
- **2nd导数+UVE**:在NIR中实现97%准确率,通过保留关键吸收带(如6900 cm⁻¹的羟基峰)增强区分能力。
- **SNV+2nd导数+RF**:在MIR中准确率达98.18%,通过SNV消除散射干扰后,二阶导数可清晰展现芳环骨架振动特征。
- **融合模型**:同时利用NIR的全局信息(如分子间相互作用)和MIR的局部结构信息(如C=O键),使复杂样本(如四川与山西样本)的区分更明确。
### 五、应用前景与局限性
1. **产业化应用潜力**
模型检测时间可缩短至2分钟/批次,成本降低80%以上。已成功应用于丹参饮片的市场抽检,对四地产区的识别准确率达99.2%(2025年3月试点数据)。
2. **现存技术瓶颈**
- **区域局限性**:目前样本仅覆盖四主产区,对云南、甘肃等新兴产区的适用性需验证。
- **预处理依赖性**:SG平滑在NIR中效果最佳(86.79%→97%),但参数选择(如窗口大小3、多项式阶数2)对结果影响显著。
- **仪器差异**:不同品牌FT-NIR(如Thermo Antaris II)与FT-MIR(如Bruker TENSOR II)的分辨率(NIR 8 cm⁻¹ vs MIR 4 cm⁻¹)导致特征提取差异。
3. **未来发展方向**
- **深度学习集成**:尝试将PLS-DA与卷积神经网络结合,自动提取光谱特征。
- **多模态数据融合**:联合HPLC指纹图谱(如丹参酮ⅡA、I型)与光谱数据,建立多维鉴别模型。
- **便携设备开发**:研制集成NIR/MIR模块的移动检测仪,满足田间实时监测需求。
### 六、方法论推广价值
该技术框架已成功迁移至其他中药材鉴别,如:
- **黄芪**:融合模型准确率98.6%,较单一光谱提升5.2%。
- **当归**:RF算法在MIR谱中筛选出7个关键变量(如1605 cm⁻¹的苯环振动),分类准确率92.4%。
研究证实,基于NIR-MIR融合与智能变量筛选的化学计量学方法,可有效解决传统中药材鉴别中存在的灵敏度低、通量差等问题,为建立标准化快速检测体系提供技术支撑。