基于多维数据融合和可解释机器学习的白酒发酵阶段智能识别

时间:2026年1月18日
来源:Food Research International

编辑推荐:

白酒固态发酵过程通过多传感器数据与可解释机器学习实现智能化阶段划分,MLP模型识别准确率达99.48%,SHAP分析揭示CO₂浓度、pH、温度及湿度是非线性交互关键驱动因素。

广告
   X   

林杜|周俊超|唐永清|刘轩|钟静|杨波|何远成|托建国|杜海平
中国轻工业液体制造生物技术与智能制造重点实验室,四川工程技术大学,宜宾644005,中华人民共和国

摘要

在传统的固态发酵过程中,由于缺乏实时的、客观的评估方法,生产控制主要依赖于人类的专业知识和回顾性的离线分析。为了解决这一限制,本研究介绍了一种智能识别发酵阶段的方法,该方法将多维传感器数据与可解释的机器学习相结合。通过无监督学习,将发酵过程客观地划分为三个不同的阶段。随后通过多个维度(包括生化动力学、偏最小二乘判别分析(PLS-DA)和风味化合物积累)验证了这种划分的有效性。在此基础上,系统评估了六种机器学习算法的性能。多层感知器(MLP)模型表现最佳,在独立测试集上的识别准确率为99.48%。此外,Shapley加性解释(SHAP)分析提供了模型的可解释性,揭示了CO2浓度、pH值、温度和湿度等动态特征及其非线性相互作用是模型分类决策的主要驱动因素。这种可扩展且成本效益高的方法促进了从经验驱动的酿造向标准化、智能化生产的转变,为白酒及更广泛的传统发酵食品行业提供了稳健的技术解决方案。

引言

中国白酒是全球六大蒸馏酒之一,拥有数千年的历史。它具有深厚的文化意义,在中国的国民经济中发挥着重要作用(Gao等人,2025年)。其生产过程包括四个核心步骤:蒸煮、糖化、发酵和蒸馏(Yuan等人,2025年),其中发酵阶段至关重要。与西方酒精的液态发酵不同,白酒依赖于固态发酵(SSF),这是一种复杂的生化过程,其特征是在异质固体基质中多种微生物群落的动态更替(Fan等人,2020年;Zheng等人,2022年)。
SSF对于塑造白酒独特的风味特征至关重要(Klaithin等人,2024年;Li, Li等人,2024年;Li, Rao等人,2024年)。在此过程中,淀粉被分解为可发酵的糖类,随后被微生物转化为乙醇和风味前体(Zeng等人,2025年)。发酵系统的固有异质性(Yang等人,2025年),加上微生物群落的动态更替和环境因素的波动,使得发酵动力学变得非常复杂和非线性,表现出明显的阶段特征而非均匀的速率(Liu, Mu等人,2025年;Liu, Zhang等人,2025年)。准确识别这些阶段对于过程优化和质量保证至关重要。基于通常被称为“温度引导酿造”的经验知识,传统酿造理论将发酵过程划分为三个不同的阶段:前发酵、主发酵和后发酵(Miao等人,2025年)。每个阶段对应独特的微生物活动、群落结构更替和代谢物积累特征(Liu, Mu等人,2025年;Liu, Zhang等人,2025年)。历史上,发酵阶段的确定很大程度上依赖于酿酒大师的感官经验。虽然诸如“捏捏粮食感受温度”和“闻香气判断变化”等传统方法反映了宝贵的实践智慧,但它们存在主观性强、量化程度低和缺乏标准化的缺点。这些限制严重阻碍了白酒行业的现代化和智能化转型。
现代分析技术已被引入以解决这些限制。在离线分析层面,可以使用传统的物理化学方法来测量酿酒原料的关键参数,如淀粉含量、酸度和酒精浓度。同样,高效液相色谱(HPLC)和气相色谱-质谱(GC–MS)等先进仪器可以提供关于风味化合物和发酵机制的定量信息(Huang等人,2025年;Zhou等人,2025年)。然而,这些方法存在破坏性采样、操作繁琐、设备成本高和数据延迟严重的问题,无法满足实时过程控制的需求。
相反,在线监测技术提供了连续过程评估的潜力。为此目的,已经探索了高光谱成像和电子鼻等先进方法。虽然高光谱成像可以通过获取空间和光谱信息来实现化学成分的非破坏性视觉监测(Qin等人,2025年),但其高昂的成本、数据复杂性和对环境干扰的敏感性给工业环境中的稳定定量分析带来了挑战。同样,电子鼻技术可以通过传感器阵列快速评估香气状态(Xie等人,2024年;Zhou等人,2024年),但由于环境温度和湿度的影响容易产生信号漂移,导致稳定性不足。相比之下,通过工业物联网(IIoT)技术部署的高频传感器系统(例如用于温度、湿度、pH值和CO2的传感器)提供了更实用的解决方案(Gallego-Martínez等人,2024年;Klaithin等人,2024年)。这些系统具有低成本、高耐用性和易于大规模部署的优点。通过连续捕获宏观物理信号而不干扰发酵环境,这些传感器可以作为微生物代谢活动的可靠代理。尽管它们的原始数据可能缺乏离线分析的化学特异性,但其稳健性使其成为工业监测的理想硬件基础。
然而,SSF的高度动态和非线性特性产生了复杂的传感器信号模式,简单的基于阈值的方法难以有效解释。在这种情况下,机器学习(ML)因其处理高维、非线性数据的能力而显示出独特的优势。它已成功应用于白酒质量分类(Klaithin等人,2024年;Li, Li等人,2024年;Li, Rao等人,2024年)、香气成分预测(Niu等人,2025年)和基酒陈化评估(Liu等人,2023年)等任务。虽然这些研究突显了ML的潜力,但大多数研究仍然是回顾性的,并依赖于离线数据,无法提供动态过程控制所需的实时反馈。因此,利用实时传感器数据动态评估发酵过程是一个关键但尚未充分探索的研究方向。更重要的是,许多ML模型固有的“黑箱”特性严重限制了它们的实际价值。在工业环境中,仅知道预测结果是不够的;理解决策背后的理由对于可靠干预至关重要。因此,开发一个结合预测准确性和决策可解释性的智能系统是实现白酒生产智能升级的关键。
为了解决上述挑战,本研究提出了一个用于实时和可解释地识别白酒发酵阶段的智能框架,该方法将多维传感器数据与可解释的机器学习相结合。通过无监督学习,将模糊的发酵过程客观地划分为具有生物学意义的各个阶段。利用仅低成本在线传感器开发了一个高精度的实时识别模型,在独立测试集上的识别准确率为99.48%。进一步采用可解释的机器学习结合Shapley加性解释(SHAP)分析来阐明决策机制,将宏观传感器信号与潜在的代谢变化定量关联起来。这项研究不仅为智能发酵监测提供了稳健、成本效益高且透明的技术解决方案,还为传统食品行业的数字化转型提供了新的研究途径。

实验片段

固态发酵实验

实验采用了小曲清香型白酒的SSF过程。实验在泸州祖庆丰有限公司的生产基地进行。主要原料高粱在工厂的混合粮食发酵生产线上收集,经过标准的预处理(浸泡、蒸煮和冷却)。冷却后,加入商业小曲发酵剂(0.4%–0.6% w/w)并充分混合。然后混合物在保温、通风的条件下进行24小时的糖化阶段

PCA降维分析

首先使用PCA来降低原始数据集的维度。这一步骤旨在可视化发酵过程的动态轨迹,评估多个批次之间的重复性,并为后续的客观阶段划分提供一个降噪的、低维的空间。主成分的选择是通过评估特征值和方差贡献来客观确定的(补充图S1)。如图所示,特征值表现出

结论

本研究通过将多维数据与可解释的机器学习相结合,成功开发了一个用于识别和动态评估白酒SSF阶段的智能框架。通过系统的数据分析、模型开发和验证,得出了几个关键结论。首先,一个结合无监督学习和多方面验证的分析框架有效地解决了发酵边界的模糊性问题。使用PCA和K-Means聚类

CRediT作者贡献声明

林杜:撰写 – 审稿与编辑,撰写 – 原稿,监督,软件,资源,项目管理,方法论,研究经费获取,正式分析,数据管理,概念化。周俊超:资源,项目管理,方法论,研究经费获取。唐永清:正式分析,数据管理。刘轩:正式分析,数据管理。钟静:数据管理,概念化。杨波:正式分析,数据管理。何远成:

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中国轻工业液体制造生物技术与智能制造重点实验室(2024-04)、泸州白酒研究生创新基金项目(LJCX2024-9)和泸州白酒博士后项目(资助编号HX223278)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有