酯类在制药、医药、燃料、食品、化妆品和日用品等多个行业中得到广泛应用。丁基丁酸(BB)是一种短链脂肪酸酯(Short-Chain Fatty Acid Ester,简称SCFAE),在化工和化妆品行业中被广泛使用(Sinumvayo等人,2021年)。由于其类似菠萝的气味,BB可以直接用作食品香料(Sinumvayo等人,2021年)。此外,由于其辛烷值(97.3)高于欧洲汽油标准EN228规定的最低值95,BB也可作为替代燃料使用(Sinumvayo等人,2021年)。BB还具有与汽油、航空煤油和柴油相似的特性,并且在低温下具有优异的燃烧性能,使其成为航空燃料的有希望的成分(Kushwaha等人,2022年)。尽管BB在某些水果(如苹果和浆果)中以低浓度天然存在,但高提取成本限制了其广泛应用(Kushwaha等人,2022年)。传统上,BB是通过Fisher–Speier酯化反应生产的,即在酸性催化剂存在下于较高温度(200°C–250°C)下使丁醇和丁酸发生酯化反应(Ng和Yang,2016年;Stergiou等人,2013年)。在传统生产路线中,高温下使用腐蚀性的酸碱催化剂会形成抑制性环境(Stergiou等人,2013年),因此需要探索更可持续的生产方法。最近的研究表明了酶在有机介质中的活性及其吸引人的特性(Stergiou等人,2013年),这些发现显著提高了BB的酶促生产潜力。
在过去十年中,脂肪酶(Triacylglycerol Hydrolase)在有机介质中的转酯化、酯化和内酯化过程中的应用日益增多(Hari Krishna和Karanth,2002年)。脂肪酶(在水性和有机介质中均具有活性)因其出色的区域选择性、化学选择性和对映选择性转化能力而受到关注。由于它们对底物的广泛耐受性、高温度和溶剂稳定性以及市场易获得性,脂肪酶在全球范围内受到了重视(Brzozowski等人,1991年)。温度、反应时间、催化剂浓度和底物摩尔比显著影响通过脂肪酶催化的酯化反应产生的丁基丁酸的产量(Khan等人,2021年)。传统的实验方法不足以评估工艺参数的复杂性和相互依赖性。采用适当的技术有助于预测这些复杂的相互作用,最终降低运营成本、减少材料浪费并减少实验次数(Khan等人,2021年)。在生化反应工程应用中,有效的实验设计对于最大化或最小化特定响应至关重要。生化系统的优化在很大程度上取决于选择适当的工艺参数及其对应的值(连续或离散),以实现最佳结果。通常情况下,当只有一个因素变化而其他因素保持不变时,需要进行大量的顺序实验。此外,这种方法无法捕捉变量之间的相互作用(Baltrusch等人,2025年)。
响应面方法(Response Surface Methodology,RSM)和实验设计(Design of Experiments,DoE)都是常用的统计实验设计技术,用于BB合成的工艺优化。DoE技术允许研究人员通过同时调整多个工艺变量,从有限数量的精心设计的实验中获取最全面的见解(Gooding,2004年)。相比之下,RSM包含多种统计和数学工具,用于建立将酯产量与关键工艺变量联系起来的经验模型(Veza等人,2023年;Zhang和Wu,2021年)。RSM和DoE都有局限性。这些方法通常假设工艺因素与响应之间存在简单(通常是线性的)关系。虽然RSM可以处理一些非线性关系,但在复杂过程中可能会产生不准确的预测(Veza等人,2023年)。此外,RSM和DoE严重依赖于预定义范围内的结构良好的实验数据,这使得它们对意外条件的适应性较差(Imamoglu,2024年)。尽管RSM可以为每个参数提供可解释的系数,但理解因素之间的复杂关系仍然是一个挑战(Imamoglu,2024年)。
机器学习(Machine Learning,ML)通过识别复杂关系、利用大量数据以及有效适应变化情况,为克服这些挑战提供了有效方法(Imamoglu,2024年;Veza等人,2023年)。随着基于ML的方法的日益应用,已经开发出了更复杂的技术。ML算法可以使用监督学习、半监督学习、无监督学习或强化学习技术进行构建和训练(El Naqa和Murphy,2015年),并在医疗保健、金融、旅行和研究等行业中得到广泛应用(Anand等人,2022年)。当传统的基于多项式的RSM模型无法表示复杂关系时,更灵活的ML模型能够更好地估计响应面函数。实施ML的主要目标是生成能够自动识别数据模式并在无需明确指令的情况下执行任务的算法和模型(Zhang等人,2020年)。然而,在使用这些模型优化BB产量之前,必须用大量的可靠实验数据进行训练。需要在不同温度下进行包含不同量丁醇、丁酸和酶的多种实验。
由于初始数据集仅包含28次实验结果,因此采用了称为主动学习的新方法来生成更多信息丰富的数据点。主动学习作为一种高效收集训练数据的方法已被探索,以提高机器学习技术的泛化能力。这种方法涉及一种迭代算法,用于在训练样本数量有限的情况下选择数据以最大化并提升模型性能。在获取训练样本成本高昂、耗时或具有挑战性的工业环境中,这种方法特别有益。
最近,多项研究应用机器学习技术对生物燃料生产的各个方面进行了建模(通过酯化过程)。表1总结了这些机器学习模型的特点。然而,很少有研究探讨基于ML的BB生产优化。有报道指出,使用甲磺酸作为催化剂对BB进行了优化,其中应用了RSM和人工神经网络(ANN)(Khudsange和Wasewar,2017年)。在BB产量优化过程中应用元启发式算法可能是由于多种因素的结合。由于元启发式算法的灵活性、高效寻找全局最大值的能力以及有效处理复杂、非线性和多目标问题的能力,它们在优化问题中至关重要(Jafari-Asl等人,2024年)。元启发式算法的几个优点促使作者实施了某些算法,如粒子搜索优化(Particle Search Optimization,PSO)、遗传学习PSO(GL-PSO)和群搜索算法(Crow Search Algorithm,CSA),以优化BB的产量。
本研究的动机在于发现BB合成工艺优化方面的研究空白。通过以下目标解决了这些局限性:
1.开发了一种新的主动学习技术协议,用于BB生产的工艺优化,以解决数据有限和数据生成过程耗时的问题,其中利用了不确定性采样,并应用了自举方法来量化实例的不确定性。
2.使用不同的机器学习模型来计算BB产量目标函数,并应用元启发式模型来寻找全局最大值及其对应的参数。
这种综合方法不仅优化了BB的产量,还展示了机器学习和元启发式方法在推动工艺强化方面的作用,提高了BB生产的效率和可扩展性。