POGOSTEMON CABLIN (BLANO) BENTH (P.cablin)[1] 是唇形科的一种开花植物,通常被称为广藿香。P.cablin 主要含有挥发油(如广藿香醇)和黄酮类化合物。它具有多种药理活性,如抗病原微生物、镇痛和抗炎作用,以及调节胃肠道功能和免疫调节作用。它被广泛用作药用植物[2],[3]。此外,P.cablin 的整个植物都含有挥发油,这些挥发油是香水、香料和化妆品中的常见成分。其独特的香气和化学组成使其在全球市场中占据关键地位[4],[5]。然而,P.cablin 的质量受到许多因素的影响,其中来源差异是最重要的因素之一,因为气候和生长条件不同。P.cablin 的化学成分、香气特性和质量标准因其地理来源而大不相同,因此鉴定来源对于质量控制、真伪验证和市场价值确定至关重要[6]。传统的来源鉴定方法,如气相色谱-质谱(GC-MS)和近红外(NIR)光谱[7] 的组合,可以成功地根据来源对 P.cablin 油进行分类。然而,基于质量的方法往往耗时、劳动强度大,并需要广泛的化学分析。光谱技术(如 NIR)只能进行点扫描,无法利用空间信息,也无法实现原位分布分析。
近年来,高光谱成像(HSI)在多个领域取得了显著进展,包括医学诊断[8]、环境监测[9]、[10]、食品质量[11] 和质量评估[12]。HSI 技术基于大量窄带图像数据技术,它将成像技术与光谱技术相结合,以检测目标的二维几何空间和一维光谱信息[13],[14],[15]。从可见光到近红外光的高光谱数据可以揭示材料(如植物组织)的化学成分和空间分布的细微差异。必须提到的是,HSI 数据的收集是快速且无损的,这些优势进一步增强了其在植物材料快速鉴定和应用中的地位[16],[17]。测量环境、仪器设置和光照条件的变化往往会导致不同批次数据之间的差异。因此,为某一批次 HSI 数据开发的分析方法可能无法直接应用于其他批次。此外,HSI 数据固有的复杂性(同时包含空间和光谱信息)增加了分析的难度。总之,由于高维度、批次变异性和光谱-空间关系的复杂性,分析 HSI 数据仍然具有挑战性。
研究人员提出了许多关于 HSI 数据分析和应用的方法。该框架[18] 利用空间和光谱信息对高光谱图像中的像素进行分类。它包括三个阶段,使用主成分分析和支持向量机根据预处理数据估计每个类别的像素概率图。该方法[19] 旨在对高光谱场景进行分类,追求多种特征的结合。该方法可以处理数据中存在的线性和非线性类别边界,从而遵循考虑的高光谱数据解释的两个主要混合模型。基于超像素的稀疏表示模型[20] 被提出用于高光谱图像超分辨率。该模型首先从 HSI 学习光谱字典,并构建与多光谱图像对应的转换字典。然后,它将多光谱图像聚类为超像素,其形状和大小可以根据局部结构进行自适应调整。基于空间-光谱信息、判别信息和超图学习,提出了一种特征学习算法[21],称为空间-光谱超图判别分析(SSHGDA)。它能够有效揭示 HSI 的复杂空间-光谱结构,并增强特征的土地覆盖分类判别能力。高效展开网络(EUNet)[22] 用于 HSI 超分辨率。具体来说,超分辨率先验驱动的最大后验框架的优化过程被展开为一个可解释的多阶段网络,该网络继承了基于深度学习的图像超分辨率的优势,并明确施加了退化模型约束。该算法[23] 通过基于优化的方法和深度学习技术的协同作用实现了去噪。将即插即用的深度低秩分解(DLD)模型引入优化框架,并将传统先验知识纳入 DLD 模型的有效机制中。虽然传统的 HSI 分析方法提供了宝贵的见解,但它们通常涉及复杂的处理过程并需要较高的专业知识。因此,从大型 HSI 数据集中有效提取相关信息仍然是一个挑战。
深度学习[24],[25] 在各种分类任务中展示了显著的成功,包括高光谱数据分析。提出了端到端的卷积神经网络(CNN)架构[26],以提高其对高光谱图像分类的判别能力。CNN 模型的参数从小训练集进行优化,同时在一定程度上缓解了神经网络的过拟合问题。该框架[27] 利用 CNN 和多种特征学习来更好地预测 HSI 像素的类别标签。来自各种特征的特征图作为分类层的输入,以预测每个高光谱像素的最终标签。这种称为多样化区域基础 CNN[28] 的分类框架可以编码具有语义上下文意识的表示,以获得有前景的特征。基于 CNN 的表示展示了空间-光谱上下文敏感性,合并了多种判别性外观因素。SemanticFormer[29] 旨在通过利用不同语义令牌之间的交互来学习语义的判别性视觉表示。包含光谱-空间卷积网络和 SemanticFormer 分支的异构网络可以同时提取 HSI 的光谱-空间和语义特征。设计了一种双通道稀疏网络[30] 来对 HSI 进行分类。它利用分组 3D 卷积在时间和空间域中很好地传达了高光谱数据的属性。引入了图像级注释来预测 HSI 的像素级分类图[31]。对于像素级预测部分,在高增强变换器中提出了高频感知的自注意力,以实现详细特征表示。
关于使用 HSI 进行来源鉴定,已经有许多与机器学习相关的研究[32],[33]。Noviyanto 等人[34] 开发了一种分层分类深度学习模型来分类蜂蜜的植物来源。所提出的模型在闭合集和开放集分类中分别达到了 91% 和 80% 的准确率。改进的蜣螂优化算法优化了双向门控循环单元深度学习模型[35],用于处理高光谱数据以辨别鲑鱼的来源。与传统机器学习方法相比,所提出的方法在处理高维数据方面表现出更优越的性能,特别是在处理融合数据时表现出鲁棒性。然而,这些现有的深度学习模型仅对单批次数据进行预测。高光谱测量条件的变化可能导致批次之间的差异,即同质但不同的光谱,这限制了训练模型在不同数据集上的直接应用。迁移学习利用源领域的知识来改进目标领域的学习,为提高模型泛化能力和减少对大量标记数据的需求提供了有前景的解决方案。
在这项研究中,我们开发了 DeepHSI,这是一个基于深度学习并与迁移学习相结合的框架,用于植物的高光谱来源鉴定,以 P.cablin 作为代表案例。首先,建立了一个强大的深度学习框架用于 P.cablin 的高光谱来源鉴定。为了解决由于成像条件差异引起的批次变异性,通过冻结卷积层的部分并对卷积层和全连接层的部分进行微调,引入了迁移学习策略。迁移模型在应用于独立批次的 HSI 数据时显示出高准确性。此外,代谢组学和转录组学分析验证了 DeepHSI 在 P.cablin 来源鉴定中的可行性。这项研究不仅为 P.cablin 的来源鉴定提供了高效且可扩展的解决方案,还强调了 HSI 和深度学习在农产品质量评估和可追溯性方面的更广泛适用性。