通过堆叠式泛化元学习模型揭示了生物质特性对热解活化能的影响机制

生物通首页 > 今日动态 > 正文

通过堆叠式泛化元学习模型揭示了生物质特性对热解活化能的影响机制

时间：2026年1月26日

来源：Biomass and Bioenergy

编辑推荐：

本研究构建了包含2900余个样本的生物质热解活化能数据库，创新性地采用随机森林与决策树融合的元学习框架，显著提升预测精度至R²>0.98，并基于SHAP分析揭示氮含量、氢碳比和转化率对活化能的关键影响机制。

作者：卓图、田璐萍、徐鹤、常照峰、杜伟、张鹏、李浩、余云江

中国云南省昆明市，昆明理工大学环境科学与工程学院，云南省土壤碳封存与污染控制重点实验室，邮编650500

摘要

在“碳达峰”和“碳中和”目标的驱动下，生物质因其可再生性和碳中和潜力而被广泛认为是化石燃料的有希望的替代品。热解作为一种核心的热化学转化技术，需要精确测定反应活化能（Ea），以便进行过程建模和反应器优化。然而，基于热重实验的传统动力学研究面临数据采集成本高和建模复杂性等挑战。因此，本研究构建了一个大规模的Ea数据库，包含了来自公共文献（2016–2025年）和实验的2900多个样本，涵盖了表征生物质物理化学性质的10个输入变量。引入了一个集成学习架构中的元学习框架，提出了一个使用随机森林（RF）和决策树（DT）作为基础学习器的堆叠泛化元模型，以提高预测准确性。RF + DT元模型的测试集决定系数（R²）超过了0.98，均方根误差（RMSE）为6.8 kJ/mol，优于现有的主流模型。此外，基于SHAP的可解释性分析显示，氮含量（N）、氢碳摩尔比（H/C）和转化率（α）是影响Ea的最重要因素。具体而言，高氮含量、低H/C比和高α值的组合在生物质热解过程中协同促进了Ea的增加。因此，本研究在数据框架构建、建模方法和结果解释方面进行了系统性创新，为生物质热解动力学参数的快速评估和工程应用提供了理论支持和技术途径。

引言

在全球能源结构向可持续性转型的背景下，开发清洁、高效和可再生的替代能源已成为能源领域的研究重点[1]。生物质作为一种碳中性的可再生燃料，具有丰富的可用性，被认为在减少温室气体排放和促进可持续能源系统方面具有巨大潜力[2]。热解是一种主流的热化学转化途径，其特点是污染物排放少，并产生多种副产品，如气体、液体和固体[3]。然而，由于纤维素、半纤维素和木质素之间的协同作用，热解过程较为复杂。此外，反应机理还受到温度、加热速率、原料组成和转化率的影响[4]。因此，生物质固有的结构复杂性和多样的反应途径共同带来了建立准确热解模型的重大挑战，以阐明内在的动力学原理。

在热解过程建模中，反应活化能（Ea）作为量化反应能量障碍的核心参数，对于热解系统的设计和优化至关重要。目前，基于模型的方法（如Flynn–Wall–Ozawa（FWO）、Kissinger–Akahira–Sunose（KAS）和Friedman）已成为提取Ea值的主流技术[5,6]。这些方法被广泛用于各种生物质的热力学分析，以评估过程可行性、指导反应器设计并加深对机理的理解[7]。然而，由于生物质性质的变化，现有的动力学数据往往不能直接应用于新的生物质类型，这需要重复实验，从而导致大量的时间和资金支出，并涉及繁琐的数据处理。

人工智能的最新进展加速了机器学习（ML）在提高能源效率[8]和可持续性研究[9]中的应用，特别是在生物质热解研究领域，利用其在处理非线性建模和高维数据分析方面的显著优势[10]。其主要应用包括预测热解产物产量、组分分布和动力学参数。一些研究尝试使用元素分析、近似分析和热解条件等输入变量来开发Ea预测模型，常用的方法包括随机森林（RF）、支持向量回归（SVR）和人工神经网络（ANN）。例如，Yin等人[10]通过贝叶斯优化改进了梯度提升决策树（GBDT）模型的性能，获得了198.67的均方误差（MSE）和0.991的决定系数（R²）。他们的分析表明，高木质素含量和低氮/氧含量的原料往往表现出更高的活化能。同样，Wang等人[11]使用RF模型成功预测了五种生物质类型的无模型平均Ea值。部分依赖性分析显示，Ea与氢碳比（H/C）和氧碳比（O/C）之间存在负相关，而灰分含量的影响则取决于原料中的有机组分类型。

尽管取得了这些进展，当前ML在Ea预测中的应用仍存在显著限制。首先，大多数模型依赖于数据集有限，无法充分覆盖多样的生物质原料和实验条件，从而阻碍了模型的泛化能力。其次，输入变量的选择较为狭窄，主要限于元素或近似分析（如C、H、N、O、灰分和水分），而忽略了重要的动态变化过程参数。特别是转化率（α），作为热解进程的直接指标，对Ea有显著影响，但在大多数建模框架中很少被系统地纳入。

为了应对这些工程挑战[8]，本研究构建了一个扩展的生物质热解活化能数据库，包含2900多个Ea数据点，数据来源于2016年至2025年间的公开文献，并补充了实验结果。该数据库涵盖了广泛的原料类型和实验条件。输入特征扩展到了10个变量，全面整合了物理化学性质、过程参数和热解行为特征，从而提高了模型对生物质热解过程中Ea预测的适应性和描述能力。在建模方法方面，本研究首次引入了集成学习架构中的元学习框架用于Ea预测。通过结合RF和XGBoost等基础学习器，开发了一个多层次的堆叠泛化模型，以提高复杂系统中的预测准确性和泛化能力。此外，为了增强模型的可解释性，应用了Shapley加性解释（SHAP）来可视化预测的全球和局部解释[12]，系统地阐明了输入变量及其相互作用对Ea的影响机制。本研究明确解决了当前生物质热解动力学建模中的关键研究空白，并为快速动力学参数评估和工程应用提供了实用途径。概念框架如图1所示。

数据收集与处理

模型开发的数据集是通过Web of Science数据库使用关键词“biomass”、“pyrolysis”和“isoconversional method”检索的文献编译而成的[[13], [14], [15], [16], [17], [18]]（表S1）。每个数据条目包含四个类别：（1）近似分析：灰分含量（以质量百分比表示）；（2）元素组成：C、H、N和O（以质量百分比表示），以及推导出的H/C和O/C摩尔比；（3）原料分类：样本包括

生物质原料的特性

如图2所示，小提琴图结合了箱线图特征和核密度估计，有效地展示了不同生物质类型在多个变量上的分布特征和中心趋势。具体来说，C（碳）、H（氢）、N（氮）、O（氧）、灰分（灰分含量）、H/C（氢碳摩尔比）和O/C（氧碳摩尔比）的范围如下：C：24.55%–76.83%，H：3.88%–9.24%，N：0–5.25%，O：14.39%–67.76%，灰分：

结论

本研究专注于生物质热解中Ea的高效预测和建模，构建了一个包含2900多个样本和10个关键输入变量的大规模多维动力学数据库，显著扩展了Ea建模的样本范围和特征维度。所开发的RF + DT集成模型表现出优越的性能（R² > 0.98，RMSE = 6.8 kJ/mol），优于现有的主流单回归模型。模型输出结果显示，氮含量对Ea有显著影响

作者贡献声明

卓图：撰写——原始草稿，数据整理，概念化。田璐萍：软件开发，调查，数据整理。徐鹤：软件开发，调查，数据整理。常照峰：撰写——审稿与编辑，项目管理，方法论。杜伟：可视化，正式分析。张鹏：撰写——审稿与编辑，项目管理，方法论。李浩：撰写——审稿与编辑，项目管理，方法论。余云江：撰写——审稿与编辑，监督，