人工智能(AI)为克服生物制造中 laboratory-scale 菌株在工业规模生物反应器中性能不足的局限提供了新途径。机器学习(ML)和自动化技术能够整合文献与实时数据,实现跨尺度优化及"数字孪生"的构建。然而,菌株在规模化过程中的性能不确定性及商业风险仍然制约着微生物细胞工厂的产业化部署。本文综述了在工业生物反应器条件下评估菌株性能、建立可共享的AI就绪生物系统数据库、整合AI方法(如迁移学习、强化学习和贝叶斯优化)、混合数字细胞建模以及全链条技术经济分析等方面的研究进展与挑战。
**AI赋能的生物过程优化**
提高生物过程的生产率和产量通常成本高昂且耗时。基于机器学习的方法能够揭示代谢行为、发酵补料速率及下游条件等紧密耦合变量间的非线性相互作用,从而指导操作策略的制定,增强过程稳健性并缩小设计空间。监督学习方法可捕捉关键生物过程变量间的复杂关系,优化动态补料曲线以提高产量并减少溢流代谢和抑制性副产物的积累,还可用于开发工业上实用的软测量仪表。
主动学习(active learning, AL)和强化学习(reinforcement learning, RL)代表了向自主化和数据驱动生物过程优化转变的新范式。与传统机器学习依赖固定数据集不同,AL通过迭代选择信息量最大的实验进行优化,在减少实验次数的同时最大化信息获取。RL支持生物反应器的实时自适应控制,动态调节补料、溶氧、温度或诱导条件,使RL智能体通过与生物过程环境的交互学习最优控制策略以最大化目标函数(如生产率和产物滴度)。RL已应用于共培养系统,证明其在复杂群落系统中的有效性。贝叶斯优化(Bayesian optimization, BO)利用概率代理模型和采集函数确定下一个最优采样点,通过平衡探索与开发,能够以更少的实验遍历复杂的设计空间,支持更快速且经济高效的过程优化。
**AI增强的混合机理模型预测控制**
机器学习可通过从操作数据中直接捕捉过程动态来增强模型预测控制(model predictive control, MPC),实现基于机理知识和实时测量的灵活混合MPC部署。混合模型已被应用于调节操作设置和人工干预,并通过整合在线/离线数据流及软测量仪表主动缓解扰动。软测量仪表利用易得变量的测量值推断未测量或延迟测量的变量(如代谢物水平和产物滴度)。在数据充分代表的前提下,AI增强的控制系统能够学习过程对环境扰动、设备和原料变异及细胞异质性的特定响应。AI获取的信息和预测可通过自适应参数更新增强过程模型,揭示此前无法企及的场景并支持最优控制。这在放大过程中尤为重要,因为混合、传质和热量移除的变化可能改变过程行为。此外,迁移学习和领域自适应技术允许将在实验室或中试规模训练的模型利用少量生产规模数据进行精调,降低放大风险和成本。
由于纯粹数据驱动的模型基于实验室数据训练,可能无法推广至工业系统,将机器学习与第一性原理相结合的混合建模可兼顾预测能力和可解释性,加速数字孪生开发和过程自动化。此类方法特别适用于通过缩放因子和参数调整模拟生物过程放大和连续工业操作。
**大语言模型作为整合者和设计智能体**
大语言模型(large language models, LLMs)引入了整合异构非结构化信息以及跨尺度跨领域推理的新能力。通过低秩适应(Low-Rank Adaptation, LORA)等针对生物过程定制的微调方法,LLMs有助于弥合AI就绪数据集与新工艺改进发现之间的鸿沟,使其成为积极的设计智能体。基于智能体的方法可通过整合文献数据检索、知识综合和推理,加速菌株工程和生物过程设计,克服实验测试的局限。
具体而言,生物过程知识分散在出版物、批次记录和实验数据库中。LLMs通过知识图谱和检索增强生成技术,能够整合并组织这些数据源,揭示合成生物学元件、代谢途径、细胞韧性、培养基条件和生物反应器操作策略之间的关联。通过挖掘现有知识,LLMs能够对变量进行情境化分析,发现隐藏模式,并生成基于领域专长积累而非孤立数据集的假设。例如,近期一项光生物炼制研究整合了文献启发式方法、LLMs、检索增强生成、知识图谱可视化、迁移学习和代谢模拟,系统综述了已发表的光合细菌生物合成文献并构建了精选的AI就绪数据集。这些多模态系统探索了光生物炼制的大型设计空间,优化培养基条件、CO
2补料策略和产物产量,并进一步为过程技术经济分析提供信息。
LLMs可在部分指定的问题空间中运作,特别适用于目标随时间演化的早期过程开发阶段;它们促进人机协作,使领域专家能够交互式地指导过程发现,同时利用AI驱动的综合和探索能力。LLMs编码机构知识,加速技术转移,减少对隐性专长的依赖。将LLMs作为数字孪生中的整合者,有助于克服不可及的私有生物过程数据所形成的"沉默壁垒"。通过联邦学习,数字孪生可在不直接共享数据的情况下利用分布式数据集,而LLMs能够分析异构且可能不可共享的数据格式。通过统一数据并充当设计智能体,LLMs补充了基于机器学习的控制和优化框架, streamlined AI驱动的生物过程开发。
**AI挑战:高质量实验数据的获取**
2025年美国国家新兴生物技术安全委员会报告强调了生物技术在美国生物经济中的变革性作用,以及AI与生物技术融合的重要性。然而,AI投资必须与实验研究相平衡,以生成高质量、工业相关的训练数据。
首先,合成生物学研究主要聚焦于DBTL循环以改善实验室条件下的菌株滴度。缺乏对工程化合成元件(异源基因、途径和基因回路)稳健性以及长期大规模发酵过程中菌株代谢响应的评估,导致DBTL衍生的菌株和认识在工业生物反应器中往往放大效果不佳。目前对宿主生物变异性、细胞群体异质性、种子扩增或大规模发酵过程中的突变动态,以及生物反应器胁迫下细胞内代谢调控的理解仍十分有限。若缺乏针对多样化合成生物学菌株的综合系统生物学(组学)分析和放大发酵数据,AI模型在工业环境中的适用性将大受限制。
其次,非传统生物反应器设计(如灌流培养、填充床、气升式)虽可实现前所未有的经济性能,但难以用机理模型准确模拟。这些复杂动态系统(如气体发酵)需要机器学习进行预测和优化,而这又依赖于能够准确代表规模和相关生物过程现象的高质量训练数据。
第三,AI在生物技术中的应用根本上受限于获取私有工业数据的困难。工业规模生物制造的各项指标被严格保密,在学术实验室规模研究与实际工业应用之间形成了显著的知识鸿沟。因此,使用工程微生物的新颖生物过程往往缺乏基于数十年工业实践积累的经验启发式控制策略,且难以获得足够的代表性真实生物过程数据以验证AI模型。此外,生物过程设计变量与大规模经济性之间关系的量化不足,可能导致研究工作集中于对工业可行性影响甚微的参数上,在尝试从头生成AI训练数据时尤其如此。为推进AI驱动的生物技术,学术界与合成生物学企业必须密切协作,同时常规性地运用缩小规模实验测试、迁移学习和领域自适应技术,以弥合实验室认知与工业规模工程宿主代谢研究之间的鸿沟。
**AI挑战:模型与数据库向AI生态系统的整合**
合成生物学公司常因高商业失败率而面临"死亡谷"困境。技术经济分析在生物过程开发的AI模型中整合不足。许多研究强调原料和操作成本,而忽视废水处理等主要费用项目。不完整的TEA若未考虑规模影响,将导致:1)研究资源向经济上不可行的项目低效配置;2)收集的AI训练数据无法代表对过程经济性有关键影响的核心生物过程现象。
为促进实验室成果向产业化的转化,必须在生物过程开发早期就明确考虑TEA,并对放大挑战进行敏感性测试。机器学习模型能够通过特征重要性分析和代理建模识别关键成本驱动因素,满足上述需求。然而,AI仍然是黑箱模型,在处理细胞新型响应时存在困难,尤其在训练数据有限的情况下。大型生物反应器中的代谢转变(源于代谢负担、溶氧限制或营养梯度)可能无法被纯数据驱动模型捕捉。系统生物学研究,包括组学分析和机理代谢建模,对于定量理解生物现象仍然不可或缺。例如,动态通量平衡分析(dynamic flux balance analysis)结合 spent-media 测量,可追踪细胞代谢随时间的演变,指导底物和产物通量分析,并识别培养基优化的"活性节点",从而在复杂培养基中实现稳定生产。此类代谢模型可补充AI预测和数字孪生实践,缓解黑箱局限并改进过程设计。近期,数字细胞(digital cell,即在计算中表征生物细胞结构、动态和功能的代谢模型)正在开发中,有望整合至DBTL框架和生物过程数字孪生中。
AI模型对持续更新训练数据的依赖,驱动了对健全数据组织和获取策略的需求。MetaNetX/MNXref是整合多数据库代谢物和反应注释的统一命名空间示例。SynBioGPT利用LLMs挖掘数千篇合成生物学文献以设计DBTL循环。然而,许多数据库仍缺乏标准化和工业级数据集,凸显了建立统一平台以管理、众包和探索多尺度/多模态生物过程数据的必要性。因此,美国能源部正在扩展生物技术数据库(如KBase和联合基因组研究所)并构建AI生态系统,如ModCon(模型构建)和AmSC(先进制造科学与工程联盟)。这些举措使研究人员能够访问、共享和分析数据与模型, streamlined AI基础能力建设。值得注意的是,建设AI驱动的生物经济还需要大量资本、先进基础设施以及产业界与学术界的协作。Genesis Mission等倡议提供了及时支持,加速了从实验室到商业化的代谢工程数据生成和转化。