芝麻油(SEO)是一种通过压榨或石磨工艺提取的高级食用油,富含多种生物活性成分,包括脂肪酸、芝麻素、芝麻林素、芝麻酚、生育酚和矿物质[1]、[2]。除了在中国和其他亚洲国家作为常见调味品广泛使用[3]外,其独特的木脂素化合物(如芝麻素和芝麻林素)已被证明具有显著的抗肿瘤活性[4],进一步提升了其市场价值。然而,其高经济价值也使其成为假冒的主要目标[5]。为了模仿真正的芝麻油,人们经常将菜籽油(RO)、大豆油(SO)或玉米油(CO)等低成本食用油混入芝麻油中。此外,一些不法商贩还会将芝麻调味剂(SEF)与廉价食用油混合,冒充纯芝麻油出售。这种行为不仅降低了产品质量,还可能对消费者健康构成潜在风险[6],因此迫切需要开发高效可靠的鉴别技术。
近年来,掺假食用油的问题日益严重,不仅损害了消费者权益,也对食品安全监管提出了更高要求。传统的检测方法如气相色谱[7]、质谱[8]、核磁共振[9]和高效液相色谱[10]虽然精度高,但样品制备复杂、检测成本高且难以实现快速在线分析。为此,研究人员开始关注非破坏性检测方法,如光谱分析、成像检测及其与人工智能的结合,旨在实现高效低成本的油品真伪鉴定和质量评估。
由于光谱分析技术具有高灵敏度、强选择性和快速检测性以及非破坏性,已成为验证食品真实性的关键方法。近年来,研究人员开发了多种高效环保的光谱方法来检测掺假和评估食用油的质量,包括近红外光谱[11]、中红外光谱[12]、拉曼光谱[13]、紫外-可见光谱[14]和荧光光谱[15]。在各种光谱方法中,特别是三维(3D)荧光光谱能够全面揭示食用油中的荧光物质信息[16]。多项研究表明,荧光光谱可以有效检测食用油中的有害成分、氧化程度和质量劣化[17]、[18]、[19],为食用油的真伪鉴定和质量评估提供了可靠的分析方法。例如,张等人提出了一种利用先进分析技术识别掺有玉米油、大豆油、葵花籽油和菜籽油的特级初榨橄榄油的新方法[20]。何等人结合吸收光谱、散射光谱和荧光光谱检测了非转基因大豆油与转基因大豆油的掺假[21]。魏等人利用激发-发射矩阵荧光光谱结合深度学习技术识别了山茶油的掺假[22]。
随着人工智能技术[23]、[24]的发展,机器学习和深度学习方法在图像识别、物体检测和医学诊断[25]、[26]方面展现了巨大潜力。例如,Khishe等人提出了一种基于胸部X光片的进化深度学习卷积神经网络,用于自动检测早期COVID-19[27]。Saffari等人开发了一种基于X光片的DCNN-FuzzyWOA模型用于自动识别COVID-19[28]。这些研究表明,人工智能方法可以从复杂数据中有效提取区分性特征,为快速智能检测提供有力支持。近年来,基于机器学习的荧光光谱分析在食品领域取得了显著进展[29]、[30]。例如,Bavali等人利用激光诱导荧光结合机器学习模型定量检测了鳄梨油中的掺假[31]。Ke等人提出了一种结合残差网络(ResNet)和3D荧光光谱的智能分析方法,实现了对南极磷虾油掺假的定性和定量分析[32]。此外,最近的研究还探索了使用生成对抗网络(GANs)[33]或自编码器(AEs)[34]进行3D光谱数据增强和噪声抑制,以应对小样本量和数据不平衡带来的挑战。在定量分析任务中,机器学习仍面临样本依赖性强、模型可解释性差、对噪声敏感以及泛化能力有限等问题。因此,主流算法仍依赖于传统的化学计量学方法。例如,丁等人提出了一种结合荧光光谱和化学计量学的智能方法,用于原酒的鉴定和质量评估[35]。方等人提出了一种结合多维荧光光谱和化学计量学的快速分析方法,用于鉴定高品质武夷岩茶[36]。尽管这些技术在食品质量检测方面显示出巨大潜力,但它们仍处于发展初期。这些技术主要集中在材料分类和识别或定量浓度测量上,面对成分复杂的产品时,在成分分析和检测准确性方面仍存在一定局限性。
多项研究表明,卷积神经网络(CNN)在处理荧光光谱数据时存在某些局限性,难以捕捉激发波长和发射波长之间的全局相关性。相比之下,Transformer通过自注意力机制和显式位置编码能够更好地模拟EEM光谱中不同波长之间的长距离依赖性[37],从而提高分类和回归任务的准确性。谢等人比较了Transformer和CNN在识别油品3D荧光光谱方面的性能,证明Transformer能有效减少误分类并增强模型的特征表示能力[38]。在此基础上,Bahri等人提出的TabTransformer模型将Transformer的自注意力机制引入表格数据建模[39],通过上下文嵌入学习特征之间的语义关系,能够同时处理数值和分类特征,有效捕捉特征之间的高阶交互作用。该模型在结构化光谱数据建模中表现出优越的泛化能力和鲁棒性,为基于EEM光谱的学习提供了新的见解。
本研究解决了不法商贩将低成本食用油掺假冒充纯芝麻油的实际问题。为了提高3D荧光光谱检测假冒芝麻油的能力,本文首次提出了一种3D荧光光谱数据的差分重建方法。该方法旨在更好地突出轻微掺假所导致的变化,从而便于提取光谱特征。其次,开发了一种结合物种鉴定和浓度量化的TabTransformer-XGBoost模型。结合光谱差分重建,该模型同时实现了假冒芝麻油类型的分类和SEF浓度的精确分析。此外,使用SHAP模型进行解释后发现,发射波长692 nm和690 nm以及激发波长400 nm和390 nm对模型预测最为关键。这一发现为简化硬件开发提供了支持。