随着环境污染的加剧和对化石燃料需求的增加,生物质——作为地球上最丰富的碳基可再生资源——受到了广泛关注[1]。生物质通常由纤维素、半纤维素和木质素组成,其含量分别为40-50%、10-30%和20-30%[2]。在这些成分中,纤维素是生物质中最广泛分布的成分,由β-1,4-糖苷键连接的D-葡萄糖单元组成[3],[4]。通过转化,纤维素可以产生多种高价值的平台化学品,如5-羟甲基呋喃(5-HMF)、左旋乳酸、呋喃和有机酸,这些化学品在燃料、制药和香料领域具有巨大潜力[5]。纤维素转化的主要途径包括酶法、热化学法和化学法。其中,化学法具有易于回收和反应选择性好的优点。因此,研究越来越多地集中在化学转化方法上。
金属盐因其低成本、高稳定性、强大的催化活性和环保性而被广泛认为是纤维素化学转化中的高效催化剂[6]。作为纤维素转化过程中的关键平台化学品,5-HMF不仅作为连接生物质和化石资源的桥梁,还是2,5-二羟甲基呋喃、2,5-二甲基呋喃和5-乙氧基甲基呋喃等一系列高附加值化学品的前体[7],[8],[9]。需要注意的是,纤维素转化的产率受多种因素的影响,如催化剂、溶剂、pH值和反应温度,每个因素都会在不同程度上影响转化过程。研究人员发现,增加催化剂的用量可以有效促进纤维素向5-HMF的转化,但这种效果在超过一定浓度后会减弱[10]。在另一项研究中,减少溶剂系统中的水分比例并增加非水溶性溶剂(如1,2-二甲氧基乙烷)的比例显著提高了5-HMF的产率[11]。同样,马等人从两相水-有机溶剂系统转向单相熔融水合物,从而获得了相对较高的5-HMF产率[12]。pH值也在纤维素转化效率中起着关键作用。在强酸性水条件下,5-HMF的产率最高;中性条件下产率较低但纯度较高;而碱性条件下产率最低[13]。调整反应温度和时间是优化纤维素转化产率的常用策略[14]。当温度从130°C升至150°C时,5-HMF的产率逐渐增加,但过高的温度会导致产率下降。就反应时间而言,在高温条件下延长反应时间并不会显著提高5-HMF的产率[15]。识别和优化转化过程中的关键变量对于提高产率至关重要。然而,仅依靠传统实验方法来分析和优化这些变量之间的复杂关系具有挑战性。此外,研究所有上述变量以找到高产率的最佳途径既耗时又昂贵且复杂。因此,开发一种创新和系统的方法来评估影响产率的关键变量至关重要。
随着人工智能的快速发展,机器学习(ML)在通过分析数据并捕捉输入变量和输出变量之间的复杂关系方面展示了出色的能力[16],[17],[18],[19]。因此,多种ML算法已被广泛整合到传统实验研究中,包括决策树(DT)、梯度提升回归(GBR)、K-最近邻(KNN)、多层感知器(MLP)、随机森林(RF)和支持向量机(SVM)[20],[21],[22]。在这些算法中,RF因其集成学习方法而受到特别关注,该方法基于自助聚合构建多个决策树。这种结构增强了其在分类和回归任务中的鲁棒性和预测准确性[23]。由于这些优势,RF已在各个领域得到成功应用。例如,在预测葡萄糖产率时,RF模型取得了最高的准确性,酸浓度被确定为最具影响力的因素[24]。同样,在木质素的异相催化解聚过程中,RF在训练了优化后的输入特征后,有效预测了生物油的产率、炭的产率和反应时间[25]。在另一项涉及SVM、RF和GBR的比较研究中,RF模型在预测离子液体溶剂预处理过程中纤维素富集因子和固体回收率方面再次表现出优越的性能,R2超过0.8[26]。此外,在预测生物质中的油产率、氮含量和能量回收率方面,RF的表现优于DT和GBR模型,平均R2为0.80[27]。其他ML模型在特定应用中也显示出潜力。例如,在预测连续非催化热解废弃塑料的产物时,DT模型的R2值超过0.99,优于SVM、人工神经网络和高斯过程模型[28]。同样,使用GBR,研究人员成功预测了藻类水热液化产生的生物油中的氧和氮含量,平均R2值约为0.90[29]。在另一项研究中,结合SVM和模拟退火优化的混合模型被用于预测生物质的高热值。这种混合方法显著提高了预测准确性,为优化和精确控制过程参数提供了新策略[30]。总之,ML在预测和优化生物质转化过程方面显示出强大的潜力,特别是在提高预测准确性和揭示复杂变量相互作用方面。然而,很少有研究专门关注纤维素转化,大多数先前的工作依赖于前向ML预测——将输入变量映射到5-HMF产率——这为实验优化提供的指导有限。
为了克服这些限制,本研究通过将模型与粒子群优化(PSO)相结合,开发了一个逆向设计框架。RF模型捕捉了关键变量之间的非线性相互作用,而PSO高效地探索了多维反应空间,以确定最大化5-HMF产率的最佳反应条件。最初使用六种ML模型(DT、GBR、KNN、MLP、RF和SVM)来预测产率,然后通过特征重要性和偏依赖性分析来阐明变量效应。这种集成的RF+PSO框架不仅能够实现准确预测,还为实验设计提供了实用的、数据驱动的指导,为纤维素转化提供了新的见解。此外,其通用方法可以应用于其他生物质转化系统,进行趋势分析和条件筛选。