利用主动学习和元启发式算法,对脂肪酶催化的丁基丁酸合成过程进行数据驱动优化

时间:2026年3月19日
来源:Chemical Engineering Research and Design

编辑推荐:

该研究提出一种结合不确定性驱动的主动学习算法与元启发式优化的方法,用于高效求解丁丁酯(BB)的酶催化合成工艺优化问题。通过少量实验数据训练模型,利用模型不确定性指导实验设计迭代优化,最终确定最佳参数为温度45°C、酸醇摩尔比2:1、酶浓度0.30g、反应时间4h,实验验证显示预测产率与实际误差仅0.07%。创新点在于将主动学习与元启发式算法(如PSO、GL-PSO、CSA)相结合,显著减少实验次数并提升预测精度。

广告
   X   

阿尼什·萨卡尔(Anish Sarkar)|乌斯尼什·森(Usnish Sen)|德布丽娜·森古普塔(Deblina Sengupta)|乌贾伊尼·萨卡尔(Ujjaini Sarkar)|海因茨·A·普赖西格(Heinz A. Preisig)|萨普塔尔希·戈什(Saptarshi Ghosh)
贾达普尔大学化学工程系,印度加尔各答32号贾达普尔

摘要

丁基丁酸(Butyl Butyrate,简称BB)是一种能量密度高的生物燃料,具有可持续生产的巨大潜力;然而,由于过程交互作用复杂且实验数据有限,确定其酶促合成的最佳条件仍然具有挑战性。本研究介绍了一种基于不确定性驱动的主动学习算法,该算法能够用最少的实验次数高效解决BB酶促生产的优化问题。通过实验室实验获得实验数据来训练模型进行预测,然后利用模型的不确定性来指导额外实验的设计,从而实现预测性能的迭代改进。最终将改进的预测框架与元启发式优化方法结合,以确定最佳工艺条件。该模型预测BB的最大摩尔产率为70.6%,最佳工艺参数为:温度45°C、醇酸比2:1(mM/mM)、酶浓度0.30 g以及反应时间4小时。实验验证显示了极好的一致性,相对百分比误差为0.07%。本工作的创新之处在于将基于不确定性的主动学习与实验验证以及生物燃料生产酶促合成过程的优化器比较相结合。这种方法大大减少了实验工作量,也可应用于其他复杂的生物催化过程中。

引言

酯类在制药、医药、燃料、食品、化妆品和日用品等多个行业中得到广泛应用。丁基丁酸(BB)是一种短链脂肪酸酯(Short-Chain Fatty Acid Ester,简称SCFAE),在化工和化妆品行业中被广泛使用(Sinumvayo等人,2021年)。由于其类似菠萝的气味,BB可以直接用作食品香料(Sinumvayo等人,2021年)。此外,由于其辛烷值(97.3)高于欧洲汽油标准EN228规定的最低值95,BB也可作为替代燃料使用(Sinumvayo等人,2021年)。BB还具有与汽油、航空煤油和柴油相似的特性,并且在低温下具有优异的燃烧性能,使其成为航空燃料的有希望的成分(Kushwaha等人,2022年)。尽管BB在某些水果(如苹果和浆果)中以低浓度天然存在,但高提取成本限制了其广泛应用(Kushwaha等人,2022年)。传统上,BB是通过Fisher–Speier酯化反应生产的,即在酸性催化剂存在下于较高温度(200°C–250°C)下使丁醇和丁酸发生酯化反应(Ng和Yang,2016年;Stergiou等人,2013年)。在传统生产路线中,高温下使用腐蚀性的酸碱催化剂会形成抑制性环境(Stergiou等人,2013年),因此需要探索更可持续的生产方法。最近的研究表明了酶在有机介质中的活性及其吸引人的特性(Stergiou等人,2013年),这些发现显著提高了BB的酶促生产潜力。
在过去十年中,脂肪酶(Triacylglycerol Hydrolase)在有机介质中的转酯化、酯化和内酯化过程中的应用日益增多(Hari Krishna和Karanth,2002年)。脂肪酶(在水性和有机介质中均具有活性)因其出色的区域选择性、化学选择性和对映选择性转化能力而受到关注。由于它们对底物的广泛耐受性、高温度和溶剂稳定性以及市场易获得性,脂肪酶在全球范围内受到了重视(Brzozowski等人,1991年)。温度、反应时间、催化剂浓度和底物摩尔比显著影响通过脂肪酶催化的酯化反应产生的丁基丁酸的产量(Khan等人,2021年)。传统的实验方法不足以评估工艺参数的复杂性和相互依赖性。采用适当的技术有助于预测这些复杂的相互作用,最终降低运营成本、减少材料浪费并减少实验次数(Khan等人,2021年)。在生化反应工程应用中,有效的实验设计对于最大化或最小化特定响应至关重要。生化系统的优化在很大程度上取决于选择适当的工艺参数及其对应的值(连续或离散),以实现最佳结果。通常情况下,当只有一个因素变化而其他因素保持不变时,需要进行大量的顺序实验。此外,这种方法无法捕捉变量之间的相互作用(Baltrusch等人,2025年)。
响应面方法(Response Surface Methodology,RSM)和实验设计(Design of Experiments,DoE)都是常用的统计实验设计技术,用于BB合成的工艺优化。DoE技术允许研究人员通过同时调整多个工艺变量,从有限数量的精心设计的实验中获取最全面的见解(Gooding,2004年)。相比之下,RSM包含多种统计和数学工具,用于建立将酯产量与关键工艺变量联系起来的经验模型(Veza等人,2023年;Zhang和Wu,2021年)。RSM和DoE都有局限性。这些方法通常假设工艺因素与响应之间存在简单(通常是线性的)关系。虽然RSM可以处理一些非线性关系,但在复杂过程中可能会产生不准确的预测(Veza等人,2023年)。此外,RSM和DoE严重依赖于预定义范围内的结构良好的实验数据,这使得它们对意外条件的适应性较差(Imamoglu,2024年)。尽管RSM可以为每个参数提供可解释的系数,但理解因素之间的复杂关系仍然是一个挑战(Imamoglu,2024年)。
机器学习(Machine Learning,ML)通过识别复杂关系、利用大量数据以及有效适应变化情况,为克服这些挑战提供了有效方法(Imamoglu,2024年;Veza等人,2023年)。随着基于ML的方法的日益应用,已经开发出了更复杂的技术。ML算法可以使用监督学习、半监督学习、无监督学习或强化学习技术进行构建和训练(El Naqa和Murphy,2015年),并在医疗保健、金融、旅行和研究等行业中得到广泛应用(Anand等人,2022年)。当传统的基于多项式的RSM模型无法表示复杂关系时,更灵活的ML模型能够更好地估计响应面函数。实施ML的主要目标是生成能够自动识别数据模式并在无需明确指令的情况下执行任务的算法和模型(Zhang等人,2020年)。然而,在使用这些模型优化BB产量之前,必须用大量的可靠实验数据进行训练。需要在不同温度下进行包含不同量丁醇、丁酸和酶的多种实验。
由于初始数据集仅包含28次实验结果,因此采用了称为主动学习的新方法来生成更多信息丰富的数据点。主动学习作为一种高效收集训练数据的方法已被探索,以提高机器学习技术的泛化能力。这种方法涉及一种迭代算法,用于在训练样本数量有限的情况下选择数据以最大化并提升模型性能。在获取训练样本成本高昂、耗时或具有挑战性的工业环境中,这种方法特别有益。
最近,多项研究应用机器学习技术对生物燃料生产的各个方面进行了建模(通过酯化过程)。表1总结了这些机器学习模型的特点。然而,很少有研究探讨基于ML的BB生产优化。有报道指出,使用甲磺酸作为催化剂对BB进行了优化,其中应用了RSM和人工神经网络(ANN)(Khudsange和Wasewar,2017年)。在BB产量优化过程中应用元启发式算法可能是由于多种因素的结合。由于元启发式算法的灵活性、高效寻找全局最大值的能力以及有效处理复杂、非线性和多目标问题的能力,它们在优化问题中至关重要(Jafari-Asl等人,2024年)。元启发式算法的几个优点促使作者实施了某些算法,如粒子搜索优化(Particle Search Optimization,PSO)、遗传学习PSO(GL-PSO)和群搜索算法(Crow Search Algorithm,CSA),以优化BB的产量。
本研究的动机在于发现BB合成工艺优化方面的研究空白。通过以下目标解决了这些局限性:1.
开发了一种新的主动学习技术协议,用于BB生产的工艺优化,以解决数据有限和数据生成过程耗时的问题,其中利用了不确定性采样,并应用了自举方法来量化实例的不确定性。
  • 2.
    使用不同的机器学习模型来计算BB产量目标函数,并应用元启发式模型来寻找全局最大值及其对应的参数。
  • 这种综合方法不仅优化了BB的产量,还展示了机器学习和元启发式方法在推动工艺强化方面的作用,提高了BB生产的效率和可扩展性。

    材料与方法 [参见补充材料I和II]

    首先在初始数据库上训练不同的机器学习模型,然后通过交叉验证选择第一个基础模型。接下来,随机生成一个包含500个未标记数据集的数据集,并指定各种特征的取值范围,确保数据在有效范围内(参见图1)。目的是从未标记数据集中找到最不确定的数据点或实例。使用自举方法创建多个样本

    数据分布与预处理

    为了评估与BB生产相关的工艺变量之间的线性关系,进行了相关性分析。所得到的相关矩阵显示在图2(b)中。矩阵中的相关系数范围从-1.0到+1.0,其中+1.0表示完全正相关,-1.0表示完全负相关,0.0表示无线性关系。工艺变量之间的相关性通常较低,这表明

    结论与未来研究方向建议

    本研究提出了一种新的方法,通过结合主动学习(AL)、机器学习(ML)和元启发式优化方法来优化BB的生产。通过基于策略的不确定性采样克服了由于数据收集过程耗时而导致的数据有限问题,所提出的方法有效减少了传统工艺优化过程中的资源消耗。对ML的比较性能评估

    CRediT作者贡献声明

    海因茨·普赖西格(Heinz Preisig):撰写——审稿与编辑、方法论。乌贾伊尼·萨卡尔(Ujjaini Sarkar):撰写——审稿与编辑、可视化、监督、资源管理、项目管理、方法论、资金获取、形式分析、概念化。萨普塔尔希·戈什(Saptarshi Ghosh):方法论、形式分析。乌斯尼什·森(Usnish Sen):撰写——初稿、可视化、验证、软件开发、资源管理、方法论、形式分析、数据整理。阿尼什·萨卡尔(Anish Sarkar):撰写——初稿、可视化、验证、软件开发、资源管理

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本研究是由印度科技部(DST)和挪威研究委员会(RCN)在印挪合作(INDNOR)计划下共同资助的协作项目的一部分。印度部分的资助来自DST拨款号:DST/INT/Nor/RCN/P-06/2015。其中一位作者感谢全印度技术教育委员会(AICTE)在AICTE博士奖学金(ADF)计划下提供的财政支持[ADF信函号]。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有