DeepHSI:一种可迁移且可扩展的高光谱框架,用于工业植物来源识别——以Pogostemon cablin (Blanco) Benth为例

时间:2026年1月30日
来源:Talanta

编辑推荐:

香草草原产地鉴别方法基于高光谱成像与深度学习,提出DeepHSI框架,通过迁移学习解决批次差异问题,并经代谢组学和转录组学验证。摘要:本研究提出基于高光谱成像(HSI)和深度学习的快速原产地鉴别方法DeepHSI,通过迁移学习解决不同批次数据差异,结合代谢组学和转录组学验证,为香草草质量控制和溯源提供非破坏性解决方案。

广告
   X   

范晓琼|李正岩|尚丽金|张佳琪|刘冰月|任小珍|刘刚|李学峰|杨铁军|季洪超
河南工业大学人工智能与大数据学院,郑州450001,中国

摘要

POGOSTEMON CABLIN (BLANO) BENTH (P.cablin) 以其独特的香气和丰富的化学成分而在化妆品、食品和医药领域占据重要地位。确定其来源对于质量控制和防止掺假至关重要。传统的鉴定方法耗时且劳动强度大,通常需要复杂的化学分析。本研究提出了一种基于高光谱图像(HSI)和深度学习的快速通用方法来鉴定 P.cablin 的来源,该方法称为 DeepHSI。此外,还进行了代谢组学和转录组学分析,以验证 HSI 分析在 P.cablin 来源鉴定中的可行性。在三种实验条件下收集的 HSI 数据用于模型训练和迁移学习,证明了 DeepHSI 的通用性。简化的多来源鉴定模型融合机制确保了其在实际研究应用中的可扩展性,并为多分类研究提供了范例。这些优势为快速、无损的来源鉴定、质量控制和真实性验证提供了有前景的解决方案。

引言

POGOSTEMON CABLIN (BLANO) BENTH (P.cablin)[1] 是唇形科的一种开花植物,通常被称为广藿香。P.cablin 主要含有挥发油(如广藿香醇)和黄酮类化合物。它具有多种药理活性,如抗病原微生物、镇痛和抗炎作用,以及调节胃肠道功能和免疫调节作用。它被广泛用作药用植物[2],[3]。此外,P.cablin 的整个植物都含有挥发油,这些挥发油是香水、香料和化妆品中的常见成分。其独特的香气和化学组成使其在全球市场中占据关键地位[4],[5]。然而,P.cablin 的质量受到许多因素的影响,其中来源差异是最重要的因素之一,因为气候和生长条件不同。P.cablin 的化学成分、香气特性和质量标准因其地理来源而大不相同,因此鉴定来源对于质量控制、真伪验证和市场价值确定至关重要[6]。传统的来源鉴定方法,如气相色谱-质谱(GC-MS)和近红外(NIR)光谱[7] 的组合,可以成功地根据来源对 P.cablin 油进行分类。然而,基于质量的方法往往耗时、劳动强度大,并需要广泛的化学分析。光谱技术(如 NIR)只能进行点扫描,无法利用空间信息,也无法实现原位分布分析。
近年来,高光谱成像(HSI)在多个领域取得了显著进展,包括医学诊断[8]、环境监测[9]、[10]、食品质量[11] 和质量评估[12]。HSI 技术基于大量窄带图像数据技术,它将成像技术与光谱技术相结合,以检测目标的二维几何空间和一维光谱信息[13],[14],[15]。从可见光到近红外光的高光谱数据可以揭示材料(如植物组织)的化学成分和空间分布的细微差异。必须提到的是,HSI 数据的收集是快速且无损的,这些优势进一步增强了其在植物材料快速鉴定和应用中的地位[16],[17]。测量环境、仪器设置和光照条件的变化往往会导致不同批次数据之间的差异。因此,为某一批次 HSI 数据开发的分析方法可能无法直接应用于其他批次。此外,HSI 数据固有的复杂性(同时包含空间和光谱信息)增加了分析的难度。总之,由于高维度、批次变异性和光谱-空间关系的复杂性,分析 HSI 数据仍然具有挑战性。
研究人员提出了许多关于 HSI 数据分析和应用的方法。该框架[18] 利用空间和光谱信息对高光谱图像中的像素进行分类。它包括三个阶段,使用主成分分析和支持向量机根据预处理数据估计每个类别的像素概率图。该方法[19] 旨在对高光谱场景进行分类,追求多种特征的结合。该方法可以处理数据中存在的线性和非线性类别边界,从而遵循考虑的高光谱数据解释的两个主要混合模型。基于超像素的稀疏表示模型[20] 被提出用于高光谱图像超分辨率。该模型首先从 HSI 学习光谱字典,并构建与多光谱图像对应的转换字典。然后,它将多光谱图像聚类为超像素,其形状和大小可以根据局部结构进行自适应调整。基于空间-光谱信息、判别信息和超图学习,提出了一种特征学习算法[21],称为空间-光谱超图判别分析(SSHGDA)。它能够有效揭示 HSI 的复杂空间-光谱结构,并增强特征的土地覆盖分类判别能力。高效展开网络(EUNet)[22] 用于 HSI 超分辨率。具体来说,超分辨率先验驱动的最大后验框架的优化过程被展开为一个可解释的多阶段网络,该网络继承了基于深度学习的图像超分辨率的优势,并明确施加了退化模型约束。该算法[23] 通过基于优化的方法和深度学习技术的协同作用实现了去噪。将即插即用的深度低秩分解(DLD)模型引入优化框架,并将传统先验知识纳入 DLD 模型的有效机制中。虽然传统的 HSI 分析方法提供了宝贵的见解,但它们通常涉及复杂的处理过程并需要较高的专业知识。因此,从大型 HSI 数据集中有效提取相关信息仍然是一个挑战。
深度学习[24],[25] 在各种分类任务中展示了显著的成功,包括高光谱数据分析。提出了端到端的卷积神经网络(CNN)架构[26],以提高其对高光谱图像分类的判别能力。CNN 模型的参数从小训练集进行优化,同时在一定程度上缓解了神经网络的过拟合问题。该框架[27] 利用 CNN 和多种特征学习来更好地预测 HSI 像素的类别标签。来自各种特征的特征图作为分类层的输入,以预测每个高光谱像素的最终标签。这种称为多样化区域基础 CNN[28] 的分类框架可以编码具有语义上下文意识的表示,以获得有前景的特征。基于 CNN 的表示展示了空间-光谱上下文敏感性,合并了多种判别性外观因素。SemanticFormer[29] 旨在通过利用不同语义令牌之间的交互来学习语义的判别性视觉表示。包含光谱-空间卷积网络和 SemanticFormer 分支的异构网络可以同时提取 HSI 的光谱-空间和语义特征。设计了一种双通道稀疏网络[30] 来对 HSI 进行分类。它利用分组 3D 卷积在时间和空间域中很好地传达了高光谱数据的属性。引入了图像级注释来预测 HSI 的像素级分类图[31]。对于像素级预测部分,在高增强变换器中提出了高频感知的自注意力,以实现详细特征表示。
关于使用 HSI 进行来源鉴定,已经有许多与机器学习相关的研究[32],[33]。Noviyanto 等人[34] 开发了一种分层分类深度学习模型来分类蜂蜜的植物来源。所提出的模型在闭合集和开放集分类中分别达到了 91% 和 80% 的准确率。改进的蜣螂优化算法优化了双向门控循环单元深度学习模型[35],用于处理高光谱数据以辨别鲑鱼的来源。与传统机器学习方法相比,所提出的方法在处理高维数据方面表现出更优越的性能,特别是在处理融合数据时表现出鲁棒性。然而,这些现有的深度学习模型仅对单批次数据进行预测。高光谱测量条件的变化可能导致批次之间的差异,即同质但不同的光谱,这限制了训练模型在不同数据集上的直接应用。迁移学习利用源领域的知识来改进目标领域的学习,为提高模型泛化能力和减少对大量标记数据的需求提供了有前景的解决方案。
在这项研究中,我们开发了 DeepHSI,这是一个基于深度学习并与迁移学习相结合的框架,用于植物的高光谱来源鉴定,以 P.cablin 作为代表案例。首先,建立了一个强大的深度学习框架用于 P.cablin 的高光谱来源鉴定。为了解决由于成像条件差异引起的批次变异性,通过冻结卷积层的部分并对卷积层和全连接层的部分进行微调,引入了迁移学习策略。迁移模型在应用于独立批次的 HSI 数据时显示出高准确性。此外,代谢组学和转录组学分析验证了 DeepHSI 在 P.cablin 来源鉴定中的可行性。这项研究不仅为 P.cablin 的来源鉴定提供了高效且可扩展的解决方案,还强调了 HSI 和深度学习在农产品质量评估和可追溯性方面的更广泛适用性。

DeepHSI 概述

DeepHSI 是一种全面的方法,用于解决 HSI 数据中来源鉴定的基本问题。建立了三种识别模型来识别 HSI 数据中 P.cablin 的主要来源。流程图如图 1 所示。标记的 HSI 数据沿空间维度展开,以构建用于模型预训练的单像素光谱数据集。使用不同的数据批次对预训练模型进行微调。微调后,该模型可用于预测

预训练模型的预测结果

通过保存和重新加载这三个建立的 P.cablin 来源识别模型,可以预测 HSI 数据中 P.cablin 的来源。沿 HSI 数据的空间方向展开,依次将光谱输入到来源识别模型中,可以实现原位分析。这些模型的原位预测结果如图 3 所示。在每个子图中,左侧显示了原始 HSI 数据的伪 RGB 图像,以及相应的原位

结论

在这项研究中,提出了 DeepHSI,基于高光谱图像(HSI)和深度学习来识别 P.cablin 的三个主要来源。DeepHSI 是一种全面的方法,用于解决 HSI 数据中来源鉴定的基本问题。DeepHSI 是基于卷积神经网络和残差连接构建的。由于三个来源识别模型可以独立工作,因此可以根据实际分析需求扩展 DeepHSI 方法。

CRediT 作者贡献声明

任小珍:资金获取。刘冰月:可视化、软件。张佳琪:可视化、软件。尚丽金:验证、软件、数据管理。季洪超:方法论、资金获取。杨铁军:方法论、概念化。李学峰:数据管理。刘刚:验证。李正岩:可视化、验证、数据管理。范晓琼:撰写——原始草稿、方法论、资金获取

数据可用性声明

本研究中生成和分析的转录组数据集可在 NCBI SRA 存储库 PRJNA1329866 中找到。HSI 数据可在 https://github.com/ASDFTYJKL/Pogostemon-cablin 获取。

资助

本研究由 国家关键研发计划(授权号 2023YFA0915800);河南省科技厅 的自然科学项目(授权号 252102211033 和 252102211029);河南工业大学 的高层次人才基金(授权号 2022BS075);农业科技创新计划(授权号 CAAS-ZDRW202503)资助。

利益冲突声明

所有作者声明不存在利益冲突。

生物通微信公众号
微信
新浪微博


生物通 版权所有