综述:处于传统与创新交汇点的酶的定向进化

时间:2026年5月18日
来源:FEBS Open Bio

编辑推荐:

摘要 定向进化已成为一种核心方法,用于设计具有改进功能或全新功能的蛋白质,从而在生物技术、医学和合成化学领域得到广泛应用。通过将遗传多样化与筛选或选择过程迭代结合,定向进化即使在缺乏详细结构或机制知识的情况下也能实现功能优化。虽然基于展示的选择平台能够高效地从庞大的库中进化出结

广告
   X   

摘要

定向进化已成为一种核心方法,用于设计具有改进功能或全新功能的蛋白质,从而在生物技术、医学和合成化学领域得到广泛应用。通过将遗传多样化与筛选或选择过程迭代结合,定向进化即使在缺乏详细结构或机制知识的情况下也能实现功能优化。虽然基于展示的选择平台能够高效地从庞大的库中进化出结合剂,但酶的进化主要依赖于保持基因型-表型关联的定量筛选策略,这通常是通过隔离实现的。本综述主要关注酶的定向进化,并以结合剂的进化作为比较参考点,突出关键的方法学差异和并行进展。包括体外乳液、微流控技术、超高通量分选、基因编码生物传感器和替代检测模式在内的重大技术进步,极大地扩展了筛选能力和分析分辨率。我们还讨论了稳定性为何仍然是进化能力的核心限制因素,为什么检测设计继续限制了转化应用,以及诸如替代底物偏见、液滴泄漏、跟踪错误和过度拟合的机器学习模型等失败如何可能误导进化过程。通过将传统策略与新兴的连续性和数据驱动方法相结合,酶的定向进化正朝着更具预测性、自动化和可工业化转化的工作流程发展。

缩写

AADS:吸光度激活的液滴分选
CSR:隔离自复制
DMS:深度突变扫描
FACS:荧光激活的细胞分选
HTS:高通量筛选
IVC:体外隔离
MADS:质量激活的液滴分选
ML:机器学习
OrthoRep:正交DNA复制系统
PACE:噬菌体辅助的连续进化
w/o/w:水包油/水包油包水

早在20世纪60年代,Spiegelman及其同事就首次展示了体外达尔文进化的概念,他们观察到在无细胞系统中自我复制的RNA分子在进化[[1]]。这一领域的发展在20世纪80年代中期因聚合酶链反应(PCR)的引入而显著加速,PCR使得遗传物质能够快速扩增[[2, 3]](图1)。由于定向进化本质上依赖于DNA的多样化,因此来自易出错PCR[[4]]和DNA洗牌[[5]]的发展带来了重大进展。这些技术使得创建大型多样化的蛋白质变体库成为可能。如今,DNA库可以通过随机突变和重组以及基于CRISPR和逆转录元件的突变等方法生成,还包括体内多样化[[6-8]]。此外,计算工具和机器学习(ML)的整合使得“智能”库的设计成为可能,这些智能库通过专注于蛋白质序列中最有前景的区域,显著提高了进化过程的效率[[9, 10]]。然后使用这些DNA库产生具有不同序列变化的候选分子,随后对其进行筛选或选择,以识别具有改进或新特性的变体。这种多样化-评估过程的重复构成了定向进化的核心[[11-13]]。在过去25年中,这些技术取得了显著进步,使我们能够修改蛋白质、提高酶活性或为学术界和工业界使用的非天然反应创造新的催化剂[[6-8]]。这一进展得到了2018年诺贝尔化学奖的认可,弗朗西斯·H·阿诺德因酶的定向进化获奖,乔治·P·史密斯和格雷戈里·P·温特因噬菌体展示肽和抗体获奖[[14]]。图1(在图查看器中打开)

定向进化的里程碑时间线。从最初的体外RNA达尔文进化[[1]]、PCR和噬菌体展示[[2, 15]]、早期的定向进化和突变策略[[4, 5, 11]]、展示和隔离技术[[12, 13, 16, 17]],到智能库、高通量筛选、连续进化、深度突变扫描和机器学习辅助的定向进化[[18-23, 60]]。由Tomkova, M. (2026)使用BioRender创建(https://BioRender.com/zg5z0a9)。基于这些发展,定向进化现在被广泛用作模仿和加速自然进化的实验室方法。与理性设计不同,即使对目标蛋白质的结构或催化机制知之甚少,也可以应用定向进化[[24]]。定向进化的核心在于多样化和评估的迭代循环,每一轮的选择压力逐渐增加(图2)。通过这种渐进的重复,库中的成功变体得到富集,最终推动蛋白质达到新的适应度峰值[[25]]。这一过程的一个关键要求是保持基因型-表型关联,即遗传变体与其编码的蛋白质功能特性之间的物理或空间耦合。此外,该过程遵循“你得到你所筛选的结果”这一基本规则[[24]]。因此,设计一个稳健的发现策略至关重要,因为进化路径是由用于优先选择和富集表现更好变体的具体标准驱动的[[26, 27]]。图2(在图查看器中打开)

酶工程的定向进化工作流程。定向进化循环的示意图,展示了库的多样化、不同的筛选方法、放大以及进化蛋白质变体的迭代富集。由Tomkova, M. (2026)使用BioRender创建(https://BioRender.com/i1y7bc9)。结合剂与酶的进化

定向进化方法可以应用于广泛的蛋白质,从抗体和肽等结合分子[[28]]到用于医学、工业和合成生物学的催化酶[[8, 29]]。尽管这些应用共享相同的核心原理,但进化结合剂和酶的策略往往不同,因为它们使用不同的方法来识别表现最佳的变体。因此,这些方法沿着平行但部分不同的路径发展:一种专注于基于展示的结合剂进化[[30]],另一种则通常以筛选驱动的酶进化为中心[[8, 26]]。基于展示的结合剂进化主要依赖于选择,其中多样化的变体群体受到定义的选择压力,满足结合标准的变体被保留下来。因此,结果主要是通过多轮富集实现的,并不本质上提供单个结合剂的定量排名。这些选择机制是噬菌体、核糖体或mRNA展示的基础,所有这些方法都通过物理关联而不是直接的功能测量来保持基因型-表型关联[[13, 15, 16, 30]]。这些技术现已得到广泛应用,超过30年来,它们在学术界和工业界被用于抗体发现、配体识别和蛋白质-蛋白质相互作用映射[[30-34]]。它们的成功主要源于结合亲和力(即解离常数)和表位特异性是展示格式固有的可实验测量属性。此外,体外展示技术受益于异常大的库规模[[35, 36]],这加速了进化探索。酵母表面展示进一步扩展了结合剂进化工具包,使得可以对包含多达10^9个变体的库进行基于FACS的筛选,并通过抗原浓度梯度精确控制筛选的严格性[[12, 37]]。酵母展示的亲和力成熟允许高亲和力克隆的迭代富集,在抗体和非抗体支架格式中实现亚纳米摩尔级的解离常数[[30, 34]]。相关的发展包括RAPiD/mRNA展示衍生的宏环发现平台和下一代测序(NGS)信息的选择策略,提供了库富集的定量、群体级视图,能够同时分析数千个变体,并揭示序列空间中的上位相互作用[[21, 38]]。结合高严格性选择和深度测序的快速亲和力成熟协议进一步加速了具有定义特异性谱的优化结合剂的发现。这些结合剂进化的进展与主导酶进化的筛选驱动方法提供了重要的方法学对比和差异(表1)。表1。结合剂和酶定向进化之间的关键差异。该表比较了基本参数。在适当的情况下,指出了细微差别和例外情况,以反映每种方法的实际复杂性。虽然结合剂进化依赖于高容量选择系统,但酶进化需要定量筛选或隔离来准确测量催化特性。

与基于筛选的方法不同,它们单独评估每个变体并生成定量的或半定量的(排名顺序)性能测量。这些方法对于酶进化尤为重要,因为通常直接评估每个变体的催化活性。由于酶反应产物通常会扩散,从而破坏了定向进化系统所依赖的基因型-表型关联,这些方法通常需要隔离或一种将反应产物保留在产生它们的变体附近的机制[[8, 17, 19]]。因此,酶定向进化的平台采用基于筛选的方法,如微孔板测定、基于细胞的生物传感器和隔离策略,包括体外乳液,以及最近的液滴微流控[[8, 19]](图3)。与主要旨在降低给定配体-蛋白质对解离常数的高效蛋白质结合剂的进化相比,酶进化本质上更为复杂,因为同时优化催化转化率和底物亲和力并不容易。因此,催化效率的改进通常是在连续或分阶段的优化步骤中实现的。图3(在图查看器中打开)

酶定向进化中的筛选平台概述。比较了不同通量和测定格式的常用筛选平台。微孔板筛选提供低通量的定量测量。水包油包水乳液(w/o/w)结合荧光激活的细胞分选(FACS)实现了高通量分选,同时保持基因型-表型关联。液滴微流控方法,包括吸光度激活的液滴分选(AADS)、质量激活的液滴分选(MADS)和拉曼激活的液滴分选(RADS)。基于细胞的生物传感器使用绿色荧光蛋白(GFP)等细胞内报告分子,将代谢产物的产生与信号输出联系起来。隔离自复制(CSR)将酶活性直接与基因扩增耦合,消除了对外部检测的需求。这些进步共同构成了现代定向进化的方法学基础。如上所述,传统的展示技术通常不适合酶进化,使得酶工程更具挑战性。以下部分概述了定向进化中使用的主要方法和实际考虑因素,重点讨论酶进化,并以结合剂进化作为比较框架,突出关键机制和方法学差异[[8, 26, 30]](表1)。

1993年,Chen和Arnold首次展示了酶的定向进化,他们使用顺序随机突变和微孔板筛选在非天然环境中进化了枯草杆菌蛋白酶E的活性[[11]]。尽管他们只评估了数千个蛋白质变体(约4000个),但这项研究提供了关键的原则证明,即酶可以在体外进化。作者观察到,提高催化活性的有益突变主要发生在蛋白质表面,特别是在可变环区域,而不是在保守的结构核心或催化位点本身。此外,发现的突变效应是非加性的,为上位相互作用提供了早期证据。早期的酶定向进化实验通常依赖于定性的琼脂平板筛选或微孔板测定,或两者的结合[[5, 11, 39, 40]]。在琼脂平板的情况下,筛选原理是基于产生与周围介质反应的细菌菌落。这导致了视觉变化,例如底物颜色的变化或菌落周围形成的“晕圈”,表明底物被降解。微孔板测定中的酶活性通常通过分光光度计(测量吸光度或荧光)进行定量测量[[40-43]]。这些方法的通量相对较低,每次实验的筛选库规模通常限制在大约10^4个变体。直到21世纪中叶,这些低通量格式仍然是生物催化剂进化的标准。

由于这些早期筛选方法的通量有限,研究人员自然尝试将基于选择的策略应用于酶进化,因为这些方法本质上是高通量的,并且能够同时评估庞大的库[[13, 15, 16, 30]]。为了保持基因型-表型关联,这些方法采用了专门的化学方法,将反应产物物理固定在展示支架上[[44-46]]。这使得所谓的“单轮转化”选择成为可能,其中催化活性通过反应产物与显示酶的噬菌体颗粒的物理结合而与基因型耦合。然而,尽管这些策略在概念上取得了成功,但它们仅适用于有限范围的反应化学性质。关键的是,虽然这种单轮转化选择防止了产物扩散,但它具有显著的技术缺点:它不能可靠地反映催化效率,并且原则上在活性变体之间的区分度非常有限。然而,当与竞争性洗脱策略或基于NGS的富集跟踪结合使用时,基于选择的方法可以提供更多信息,这两种方法都为原本二元的富集结果引入了一定程度的定量区分。尽管如此,这些细微差别并没有克服将基于显示的选择应用于酶催化的一般限制。因此,尽管这些基于显示的选择策略提供了重要的原理验证,但由于其技术复杂性,它们并没有被广泛采用为标准方法。相反,出现了能够实现高通量筛选的替代方法。

有效的生物催化剂高通量筛选需要一个可测量的信号,该信号能够反映酶活性并且与编码酶的基因保持关联。荧光已经广泛用于基于平板的检测中。荧光激活细胞分选(FACS)允许根据荧光信号快速筛选和分选大型细胞文库。主要挑战在于保持荧光信号和遗传信息的一致性,这导致了体外隔室化(IVC)技术的发展。该技术由Tawfik和Griffiths在1998年引入[[17]],它使用油包水乳液来创建微小的水滴。每个水滴的大小通常在2到6微米之间,作为一个类似细胞的隔室,其中包含一个基因及其表达的酶。通过将酶及其反应产物一起捕获,IVC防止了扩散并保持了基因与其活性之间的联系。自其引入以来,IVC策略已经从相对低通量的二元选择发展到完全体外、高通量的定量筛选平台。Tawfik和Griffiths的开创性研究[[17]]使用了通过油包水(w/o)乳液中的DNA限制性消化后存活情况来间接检测酶活性。这种方法后来扩展到了荧光检测,其中荧光底物产生荧光信号,该信号仅限于每个w/o水滴内,从而可以通过显微镜手动收集荧光水滴[[47]]。下一个重大进展是微珠显示技术,其中每个基因及其表达的蛋白质通过链霉亲和素涂层的微珠物理连接,并使用荧光配体进行检测[[47, 48]]。随后引入了油包水包水(w/o/w)双乳液(图3),这使得这些隔室与FACS兼容,并实现了每秒高达40,000次事件的高通量筛选[[49, 50]]。同时,出现了隔室化自我复制(CSR)技术,其中活性聚合酶变体在隔室内直接扩增其编码基因[[51]]。这种酶活性与基因扩增的直接耦合创建了一个正反馈循环,只有编码高效聚合酶变体的基因才会被选择性地扩增。除了传统的基于荧光的检测方法外,几种新兴的高通量筛选(HTS)平台扩展了酶进化的分析能力[[8]]。其他HTS平台和检测方法包括越来越多依赖于基因编码的生物传感器的体内策略,这些传感器将细胞内代谢物的形成转化为荧光或生长相关的信号,从而能够在活细胞中直接进行快速筛选[[52, 53]]。体外微流控平台引入了除了荧光之外的其他水滴分选模式,包括吸光度激活的水滴分选(AADS),它可以在每秒数百到数千个水滴的速率下进行比色检测[[54]],以及质量激活的水滴分选(MADS),它将水滴微流控技术与电喷雾质谱技术结合,实现了无需标记的反应产物检测[[55]]。拉曼激活的水滴分选进一步允许进行化学特异性的、非破坏性的分析,而无需使用报告基因底物[[56, 57]]。总的来说,这些方法克服了基于显示的选择技术在酶催化应用中的根本限制。因此,尽管这些基于显示的选择策略提供了重要的原理验证,但由于其技术复杂性,它们并没有作为标准方法得到广泛实施。

2010年,Agresti等人实现了每小时对数百万个基于水滴的酶反应进行分选[[19]],这是一个决定性的突破。他们使用微流控水滴生成平台,生产了高度均匀的、皮升级的水滴,这些水滴分散在惰性油相中,每个水滴作为一个独立的微反应器,其中包含一个显示酶变体的酵母细胞。这种对水滴大小和组成的精确控制使得能够对接近10^8个变体的酶文库进行定量筛选。尽管传统的IVC和水滴微流控都依赖于FACS,但微流控技术的优势在于它提供了精确的水滴生成,从而实现了真正的高通量、超高的筛选效率。因此,酶定向进化达到了以前只有在基于显示的选择方法中才能实现的通量水平。

传统的定向进化受到劳动密集型循环重复的限制。现在可以在活细胞内连续进化酶,而无需人工干预。这些方法允许自主的、长期的突变和选择,而无需重复经典定向进化的手动循环(图4)。其中,噬菌体辅助的连续进化(PACE)是最广泛采用的连续蛋白质进化平台,已被广泛应用于细菌宿主中的酶优化[[20, 58, 59]]。PACE通过将所需活性与传染性子代噬菌体的产生联系起来,实现了连续的选择,使得进化轮次可以在小时的时间尺度上进行。利用PACE系统,进化出了能够识别不同启动子、用ATP而不是GTP启动转录或用CTP启动转录的新T7 RNA聚合酶变体。总共在八天内完成了大约200轮进化。

连续进化

传统的定向进化受到劳动密集型循环重复的限制。现在可以在活细胞内连续进化酶,而无需人工干预。这些方法允许自主的、长期的突变和选择,而无需重复经典定向进化的手动循环(图4)。其中,噬菌体辅助的连续进化(PACE)是最广泛采用的连续蛋白质进化平台,已广泛应用于细菌宿主中的酶优化[[20, 58, 59]]。PACE通过将所需活性与传染性子代噬菌体的产生联系起来,实现了连续的选择,使得进化轮次可以在小时的时间尺度上进行。利用PACE系统,进化出了能够识别不同启动子、用ATP而不是GTP启动转录或用CTP启动转录的新T7 RNA聚合酶变体。总共在八天内完成了大约200轮进化。

深度突变扫描(DMS)提供了一个前所未有的实验图谱,展示了序列变异如何影响蛋白质功能,通过并行量化数千到数百万个替换的影响[[21, 38]]。这些高分辨率的序列-功能图谱揭示了关键残基、上位关系和突变耐受性,创建了丰富的数据集,为计算建模和预测设计提供了支持。机器学习利用这些数据推断序列和功能之间的复杂、非线性关系,从而比无指导的筛选更有效地预测变体的适应性并优先选择有益的突变[[9, 10, 63]]。主动学习和迭代模型引导的优化框架中,ML模型根据累积的实验结果建议新的变体,已被证明可以减少实验负担并加速改进酶的发现[[23, 64]]。最近的进展进一步表明,将ML与生物物理和结构信息结合使用,例如通过蛋白质语言模型、基于物理的描述符或差分学习策略,可以提高预测准确性,并能够超越局部采样的序列邻域进行外推[[65, 66]]。在进化序列数据上训练的蛋白质语言模型实现了在蛋白质组尺度上对突变效应的零样本预测,大大减少了对于大型标记实验训练集的需求[[67]]。将自主实验平台与ML决策相结合,进一步实现了闭环酶优化过程,其中计算预测和实验反馈实时耦合,加速了改进变体的收敛(表2)[[23]]。

尽管取得了这些进展,预测性能仍然受数据质量、数据集偏差和有限可解释性的影响,这突显了需要标准化实验数据和严格验证的必要性。然而,随着高通量实验方法不断生成更丰富的训练数据,计算模型变得越来越复杂,ML引导的策略有望成为定向进化的核心组成部分,从而更有效地导航蛋白质适应性景观并更快地发现优化和新型生物催化剂。

蛋白质稳定性是定向进化中的一个核心且常常是限制因素,其原因根植于蛋白质结构的基本生物物理学。在生理条件下,天然蛋白质的稳定性仅略高于其展开的自由能阈值——这是进化压力最小化了蛋白质合成的能量成本而不是最大化结构稳定性的结果[[68, 69]]。这种边缘稳定性严重限制了突变耐受性:因为大多数突变都是不稳定的,引入有益的功能突变通常会以降低热力学或动力学稳定性为代价,从而在可进化性和折叠状态完整性之间造成了根本性的权衡[[68, 70]]。对深度突变扫描数据的大规模元分析证实,预测的不稳定性与不同蛋白质家族的功能丧失之间存在强烈相关性[[71]]。因此,在定向进化过程中保持或恢复稳定性是持续进化进步的先决条件:在选择条件下展开或聚集的变体无法进行功能评估,实际上缩小了可访问的序列空间,并使种群偏向于结构上的改进而不是功能上的改进。为了解决这一稳定性障碍,开发了一系列互补策略。微型化实验平台能够同时并行测量数百个变体的熔化温度,允许在定向进化工作流程中将稳定性作为早期筛选步骤[[72]]。通过差分扫描荧光法和纳米级量热法进行的热力学表征已适应于与微流控和机器人管道兼容的高通量格式。同时,基于蛋白质语言模型的方法可以几乎即时预测ΔΔG值,使得在蛋白质组尺度上进行计算机模拟饱和突变成为可能[[67]]。这些计算稳定性预测器能够快速预筛选大型文库,排除高度不稳定的变体,从而在实验评估之前大大减少了浪费的筛选工作。因此,基于AI的蛋白质稳定性预测器已成为集成定向进化工作流程中越来越重要的组成部分,能够在昂贵的实验筛选之前早期识别和排除不稳定的变体。尽管取得了这些进展,当前的基于AI的稳定性预测器仍然受到数据集偏差、跨不同蛋白质家族的泛化能力差以及可解释性低的限制,这突显了需要更多样化的实验数据,特别是对于稳定和超稳定变体[[73]]。最近关于PETase工程的综述说明了跨学科方法和ML在解决工业酶设计中的稳定性挑战方面的作用日益重要[[74]]。新支架酶的进化

定向进化使研究人员能够超越自然生物化学的界限,设计出催化自然界中不存在的反应的酶,从而开辟了真正新的催化功能的可能性[[25, 26, 75]]。通过重塑现有的蛋白质支架,通常结合金属辅因子,已经设计出能够进行卡宾和氮烯转移反应、形成碳-碳键以及选择性功能化原本惰性的C-H键的酶[[76-78]]。值得注意的是,许多这些人造酶在温和且对环境友好的条件下,其活性和选择性接近已建立的化学催化剂[[79-82]]。在大多数情况下,这些新反应并不是完全优化后出现的,而是从具有弱杂化活性或最低活性的设计支架开始的,然后通过迭代的突变和选择过程逐步改进[[26, 77]]。定向进化使得活性位点的逐步重塑、金属环境的精细调节以及天然酶很少能够容纳的反应中间体的稳定成为可能[[76, 77]]。超高通量筛选技术和机器学习引导的文库设计进一步加速了这一过程,这些技术有助于识别有效的突变路径,并将实验努力集中在序列空间中最有前景的区域[[8-10, 23]](图5)。这些进展共同缩短了进化周期,使得发现用于自然界中新反应的高效催化剂变得越来越常规,而不再是一种例外。同时,在工业条件下实现稳健的活性、可扩展性和长期稳定性仍然是一个核心挑战,这突显了继续整合蛋白质工程、先进筛选平台和数据驱动设计策略的必要性[[8, 74]]。图5在图查看器中打开PowerPoint

现代集成定向进化流程图。该流程图展示了一个闭环酶工程工作流程,包括文库多样化(随机、定向和机器学习(ML)引导)、超高通量液滴微流控筛选、数据分析和迭代ML模型更新。该流程在多个阶段结合了稳定性预过滤和基于NGS的富集分析,以最大化每一轮进化的质量。由Tomkova, M. (2026)在BioRender中创建:https://BioRender.com/jp62gr5。

尽管取得了显著进展,高通量酶进化仍面临几个根本性挑战,这些挑战限制了实验室筛选结果向实际应用中的稳健性能的转化。一个主要瓶颈在于筛选实验的设计,这些实验往往依赖于简化的替代底物或人工反应条件,这些条件无法准确反映工业过程参数或生理环境,从而导致HTS性能与实际催化效率之间的差异[[68]]。一个典型的例子是使用荧光底物类似物,这可能会引入底物偏倚:由于荧光基团会化学改变底物,进化出的酶可能会对修饰后的类似物产生选择性,而不是预期的天然底物,这种现象有时被称为荧光底物伪影[[8]]。同样,比色或显色替代底物可能会选择出改变的杂化活性,这些活性并不能转化为目标反应,因此在认为选定的变体真正改进之前,需要进行使用真实底物的正交验证实验。在液滴微流控系统中,液滴之间的产物泄漏是一个持续的技术挑战。即使使用了优化的氟碳油配方和表面活性剂,缓慢的被动扩散或短暂的液滴合并事件也可能导致荧光产物或底物在各个隔室之间迁移,从而破坏这些平台旨在维持的基因型-表型关联[[8]]。这种泄漏效应对于小分子、疏水性的荧光产物尤为严重,可能会导致基于FACS的分选过程中非生产性变体的错误富集。减轻泄漏的策略包括使用凝胶微粒进行封装、在分选前立即注入酶促底物,以及开发具有更好分离性能的表面活性剂[[83]]。另一个持续的挑战是在筛选极大规模的文库时可靠地维持基因型-表型关联,特别是在混合或基于液滴的格式中。由于液滴合并、细胞裂解或测序过程中的条形码错误分配等原因导致的关联丢失,可能会引入系统性错误,从而混淆真正改进变体的识别。为了检测和纠正这些事件,越来越多地采用了分子条形码、隔室化和错误控制跟踪等复杂策略,但这些策略增加了实验的复杂性和成本[[8]]。数据质量是机器学习引导进化过程中的另一个限制因素。在小型、噪声较大或存在偏倚的实验数据集上训练的ML模型容易过拟合,即模型记住了训练数据中的伪影,而不是学习出可泛化的序列-功能关系。过拟合的模型可能会在序列空间中采样不足或生物学上不太可能的区域自信地预测出高适应性的变体,导致后续筛选阶段的实验工作浪费。这一挑战因不同实验室和平台生成的实验数据集缺乏标准化、受到噪声和批次效应的影响,以及仅捕获了有限的序列-功能关系而变得更加复杂[[74]]。此外,蛋白质序列空间的巨大组合规模,加上在文库构建和筛选过程中引入的实验偏差,意味着只有极少数潜在有益的变体能够被实验探索到。实验中的伪影是另一个跨越筛选和选择平台的挑战类别,包括细胞裂解物的自荧光现象(在基于荧光的实验中提高背景信号)、在比色实验中产生假阳性的非酶促背景反应,以及由脱靶突变带来的生长优势(这些优势会干扰生长耦合的选择系统)。因此,严格的控制、反向选择策略和对排名靠前变体的正交验证是任何高通量定向进化实验的重要组成部分。为了解决这些限制,该领域正逐渐转向集成和自动化的发现流程,结合了微流控技术、机器人技术、先进的分析检测和数据驱动的计算设计,以提高通量、可重复性和决策效率[[8]]。这样的闭环平台使得实验与计算之间的耦合更加紧密,能够快速从实验反馈中学习,并更合理地导航蛋白质适应性景观(图5)。持续的进步不仅依赖于筛选技术的进一步技术创新,还依赖于数据标准的改进、基准测试实践以及实验和计算工作流程之间的互操作性,最终实现更可靠、可扩展和预测性的酶工程。

致谢

本工作得到了NextGenerationEU通过斯洛伐克的恢复和韧性计划(项目编号09I01-03-V04-00041)的资助。在准备本手稿期间,使用了人工智能工具(ChatGPT)来提高可读性、语法和语言质量。作者审查并编辑了内容,并对整个手稿负全责。

利益冲突

作者声明没有利益冲突。

作者贡献

MT参与了概念化、资金获取、初稿撰写、审阅和编辑工作。AM参与了资金获取、撰写、审阅和编辑工作。ES参与了概念化、资金获取、撰写、审阅和编辑工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有