利用金属盐催化剂通过机器学习预测和逆向设计实现从纤维素高效生产5-羟甲基糠醛(5-HMF)

时间:2026年2月7日
来源:Catalysis Today

编辑推荐:

本研究提出基于机器学习的逆设计框架,优化纤维素在金属盐催化剂下的5-HMF产率。通过集成随机森林与粒子群优化,确定水相比例、纤维素量和温度为关键因素,Al2(SO4)3为最佳催化剂,为实验设计提供数据驱动策略。

广告
   X   

赵慧婷|于方勇|谢玉娇|贾云|张媛|宋峰|谭洪志|崔鸿友
山东工业大学化学与化学工程学院,淄博255000,中国

摘要

将纤维素转化为5-羟甲基呋喃(5-HMF)为从可再生生物质中生产有价值的化学品提供了一条可持续的途径。然而,由于多个变量之间的复杂相互作用,通过传统实验优化5-HMF的产率具有挑战性。在这项工作中,开发了一个基于机器学习(ML)的逆向设计框架,用于预测和优化金属盐催化剂中纤维素的5-HMF产率。进行了文献计量分析,并对与5-HMF产率相关的数据集进行了统计分析。采用了六种ML模型:决策树(DT)、梯度提升回归(GBR)、K-最近邻(KNN)、多层感知器(MLP)、随机森林(RF)和支持向量机(SVM)进行预测,并应用超参数调整和交叉验证来提高模型性能。Shapley加性解释(SHAP)和偏依赖性分析表明,水相的百分比、纤维素的量和温度是最有影响力的因素,其中水相与产率呈负相关,而温度则具有正向影响。通过将RF模型与粒子群优化(PSO)相结合,反向设计了最佳反应条件,确定Al2(SO4)3为最有效的催化剂。这种数据驱动的框架为实验优化提供了一种稳健的策略,为生物质高效转化为高价值化学品提供了新的见解。

引言

随着环境污染的加剧和对化石燃料需求的增加,生物质——作为地球上最丰富的碳基可再生资源——受到了广泛关注[1]。生物质通常由纤维素、半纤维素和木质素组成,其含量分别为40-50%、10-30%和20-30%[2]。在这些成分中,纤维素是生物质中最广泛分布的成分,由β-1,4-糖苷键连接的D-葡萄糖单元组成[3],[4]。通过转化,纤维素可以产生多种高价值的平台化学品,如5-羟甲基呋喃(5-HMF)、左旋乳酸、呋喃和有机酸,这些化学品在燃料、制药和香料领域具有巨大潜力[5]。纤维素转化的主要途径包括酶法、热化学法和化学法。其中,化学法具有易于回收和反应选择性好的优点。因此,研究越来越多地集中在化学转化方法上。
金属盐因其低成本、高稳定性、强大的催化活性和环保性而被广泛认为是纤维素化学转化中的高效催化剂[6]。作为纤维素转化过程中的关键平台化学品,5-HMF不仅作为连接生物质和化石资源的桥梁,还是2,5-二羟甲基呋喃、2,5-二甲基呋喃和5-乙氧基甲基呋喃等一系列高附加值化学品的前体[7],[8],[9]。需要注意的是,纤维素转化的产率受多种因素的影响,如催化剂、溶剂、pH值和反应温度,每个因素都会在不同程度上影响转化过程。研究人员发现,增加催化剂的用量可以有效促进纤维素向5-HMF的转化,但这种效果在超过一定浓度后会减弱[10]。在另一项研究中,减少溶剂系统中的水分比例并增加非水溶性溶剂(如1,2-二甲氧基乙烷)的比例显著提高了5-HMF的产率[11]。同样,马等人从两相水-有机溶剂系统转向单相熔融水合物,从而获得了相对较高的5-HMF产率[12]。pH值也在纤维素转化效率中起着关键作用。在强酸性水条件下,5-HMF的产率最高;中性条件下产率较低但纯度较高;而碱性条件下产率最低[13]。调整反应温度和时间是优化纤维素转化产率的常用策略[14]。当温度从130°C升至150°C时,5-HMF的产率逐渐增加,但过高的温度会导致产率下降。就反应时间而言,在高温条件下延长反应时间并不会显著提高5-HMF的产率[15]。识别和优化转化过程中的关键变量对于提高产率至关重要。然而,仅依靠传统实验方法来分析和优化这些变量之间的复杂关系具有挑战性。此外,研究所有上述变量以找到高产率的最佳途径既耗时又昂贵且复杂。因此,开发一种创新和系统的方法来评估影响产率的关键变量至关重要。
随着人工智能的快速发展,机器学习(ML)在通过分析数据并捕捉输入变量和输出变量之间的复杂关系方面展示了出色的能力[16],[17],[18],[19]。因此,多种ML算法已被广泛整合到传统实验研究中,包括决策树(DT)、梯度提升回归(GBR)、K-最近邻(KNN)、多层感知器(MLP)、随机森林(RF)和支持向量机(SVM)[20],[21],[22]。在这些算法中,RF因其集成学习方法而受到特别关注,该方法基于自助聚合构建多个决策树。这种结构增强了其在分类和回归任务中的鲁棒性和预测准确性[23]。由于这些优势,RF已在各个领域得到成功应用。例如,在预测葡萄糖产率时,RF模型取得了最高的准确性,酸浓度被确定为最具影响力的因素[24]。同样,在木质素的异相催化解聚过程中,RF在训练了优化后的输入特征后,有效预测了生物油的产率、炭的产率和反应时间[25]。在另一项涉及SVM、RF和GBR的比较研究中,RF模型在预测离子液体溶剂预处理过程中纤维素富集因子和固体回收率方面再次表现出优越的性能,R2超过0.8[26]。此外,在预测生物质中的油产率、氮含量和能量回收率方面,RF的表现优于DT和GBR模型,平均R2为0.80[27]。其他ML模型在特定应用中也显示出潜力。例如,在预测连续非催化热解废弃塑料的产物时,DT模型的R2值超过0.99,优于SVM、人工神经网络和高斯过程模型[28]。同样,使用GBR,研究人员成功预测了藻类水热液化产生的生物油中的氧和氮含量,平均R2值约为0.90[29]。在另一项研究中,结合SVM和模拟退火优化的混合模型被用于预测生物质的高热值。这种混合方法显著提高了预测准确性,为优化和精确控制过程参数提供了新策略[30]。总之,ML在预测和优化生物质转化过程方面显示出强大的潜力,特别是在提高预测准确性和揭示复杂变量相互作用方面。然而,很少有研究专门关注纤维素转化,大多数先前的工作依赖于前向ML预测——将输入变量映射到5-HMF产率——这为实验优化提供的指导有限。
为了克服这些限制,本研究通过将模型与粒子群优化(PSO)相结合,开发了一个逆向设计框架。RF模型捕捉了关键变量之间的非线性相互作用,而PSO高效地探索了多维反应空间,以确定最大化5-HMF产率的最佳反应条件。最初使用六种ML模型(DT、GBR、KNN、MLP、RF和SVM)来预测产率,然后通过特征重要性和偏依赖性分析来阐明变量效应。这种集成的RF+PSO框架不仅能够实现准确预测,还为实验设计提供了实用的、数据驱动的指导,为纤维素转化提供了新的见解。此外,其通用方法可以应用于其他生物质转化系统,进行趋势分析和条件筛选。

文献计量分析

进行了文献计量分析,以评估金属盐溶液中纤维素转化领域的研究进展和相互关系。使用关键词“cellulose conversion”和“salt”从Web of Science数据库中检索相关文献。去除重复记录后,下载并以“.txt”格式保存以供后续分析。然后使用VOSviewer软件生成术语共现图,以便识别关键

文献计量分析

图1展示了纤维素转化领域关键词的共现网络。每个节点的大小代表关键词的频率,节点之间的连接表示共现关系。根据颜色分类,该网络可以分为四个类别,每个类别反映了该领域内的不同研究重点。红色类别包括“catalyst”、“yield”、“reaction time”、“dehydration”和“selectivity”等关键词。

结论

基于ML的建模应用,特别是RF和PSO的结合使用,构成了一种稳健有效的方法,用于准确预测和逆向设计金属盐溶液中纤维素转化为5-HMF的最佳反应条件。通过将特征重要性分析与偏依赖性图相结合,该框架识别出最关键的过程变量并阐明了它们之间的复杂相互作用,从而实现精确和有针对性的调整

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了deepseek工具来检查语法并提高可读性。使用该工具后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。

CRediT作者贡献声明

张媛:软件、研究。贾云:研究、数据管理。宋峰:方法论、研究。赵慧婷:写作——初稿、软件、方法论、研究。谢玉娇:写作——审稿与编辑、监督、研究、概念化。于方勇:写作——审稿与编辑、研究、资金获取。崔鸿友:写作——审稿与编辑、监督、资金获取、概念化。谭洪志:研究、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(编号225082282237823822308199)、山东省高校青年创新团队(编号2023KJ147)、山东省自然科学基金(编号ZR2022QB179)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有