综述:一种面向新一代生物制剂的“基因组先行”框架:从功能挖掘到理性合成微生物群落

时间:2026年5月18日
来源:Environmental Microbiology

编辑推荐:

对可持续农业的需求已将生物勘探的方向转向微生物生物制剂,以替代化学肥料和农药。全基因组测序通过实现功能基因的鉴定和营养溶磷、植物激素产生及生物防治等性状的预测,加速了植物促生细菌的发现。传统上作为菌株表征的辅助工具,基因组学已演变为一种“基因组先行”策略,有效

广告
   X   

对可持续农业的需求已将生物勘探的方向转向微生物生物制剂,以替代化学肥料和农药。全基因组测序通过实现功能基因的鉴定和营养溶磷、植物激素产生及生物防治等性状的预测,加速了植物促生细菌的发现。传统上作为菌株表征的辅助工具,基因组学已演变为一种“基因组先行”策略,有效地克服了前瞻性生物勘探和理性设计合成微生物群落中的表型瓶颈。本综述主张,应从经验性表型筛选转向基因组学指导的范式,以选择新一代生物制剂。这项工作展示了如何通过将高分辨率基因组挖掘整合到发现流程中来获得可操作的见解。研究人员探索了反向生态学在从基因组内容推断生态角色方面的应用,并强调了泛基因组学在识别与宿主定植和生态位适应相关的性状方面的关键作用。此外,研究人员主张将生物安全筛查作为生物接种剂开发中不可妥协的先决条件,以确保生态和临床安全。最后,这项工作提出,基因组规模代谢网络对于实现从单一菌株接种剂到稳定SynComs的组装过渡至关重要。该框架建立了一种全面的、数据驱动的方法,用于在农业生物经济中进行可预测的干预。
1 引言
植物-微生物相互作用是陆地生态系统生产力的基本驱动力,介导着养分循环、病原体抑制和非生物胁迫耐受性等基本功能。这些微生物的策略性部署推动了全球可持续农业中生物制剂使用的激增。传统的微生物生物制剂领域以经典菌属为基石,如慢生根瘤菌属、固氮螺菌属和芽孢杆菌属,这些菌属长期以来因其在氮营养、植物发育和病原体抑制中的作用而被认知。尽管微生物库不断扩大,但高性能菌株的识别仍然受到表型瓶颈的阻碍。传统的筛选方案依赖于劳动密集型的体外检测,例如植物激素的比色定量和基于酸的磷酸盐溶解测试,这些方法需要大量的基础设施和时间。此外,这些实验室规模的检测通常无法反映分离株在复杂田间条件或植物微生物组竞争环境下的表现。因此,许多在体外鉴定出的有前途的候选菌株在植物体内未能达到预期的功效,导致商业化生物制剂开发的损耗率很高。下一代测序成本的急剧下降和高质量参考基因组可用性的增加,为克服这些限制提供了变革性机会。通过将选择范式从表型筛选转向基因组学引导的发现,现在可以在计算机中对细菌基因组进行挖掘,以寻找特定的生物合成基因簇和植物促生标记。这种方法能够有针对性地优先筛选菌株,简化实验验证,并促进多菌株群落的理性设计。
2 基因组学驱动的有益菌株发现
从传统生物勘探到基因组学引导发现的转变,重新定义了我们对植物全息生物体内微生物功能潜力的理解。利用高质量参考基因组和基因组学框架,能够从描述性编目转向对支撑植物-微生物协同作用的性状进行机理性阐明。
2.1 泛基因组作为生态位适应的驱动力
微生物类群的功能格局从根本上由泛基因组的可塑性所定义,泛基因组包含一个系统发育类群的全部基因库。这个泛基因组被划分为核心基因组和附属基因组。核心基因组包含高度保守的基因,对垂直遗传、分类学稳定性和初级代谢至关重要;附属基因组则作为动态储备库,用于生态位特异性适应。虽然核心基因组确立了一个类群的基础身份,但附属基因组代表了适应性前沿,决定了分离株在根际竞争激烈且化学复杂的环境中的生态适应度。比较泛基因组学提供了一个强大的框架,使我们能够超越经验性、应用性微生物学,转向对微生物功能的机理性理解。对具有不同功能结果的分离株(例如在养分动员或病原体拮抗方面存在差异)之间的基因组结构进行比较分析,有助于识别与高性能PGP和生物防治相关的特定附属基因和基因组岛。这种高分辨率比较方法表明,分类学上近乎相同的菌株通常具有不同的功能轨迹,这通常是由通过水平基因转移获得的专门代谢模块所驱动。例如,寡养单胞菌属就体现了这种动态,其最小的核心基因组与超过15,000个基因家族的庞大附属库相结合,实现了广泛的生态多功能性。在这些菌株中,PGP性状和胁迫耐受机制集中在基因组岛和前噬菌体内,证实了HGT是根际适应性的基本驱动力。这种生态位特异性适应进一步反映在PGPB菌株根据其主要栖息地的功能富集上。类芽孢杆菌属也观察到类似的基因组可塑性模式,其开放的泛基因组配置(b = 0.503)突显了持续的基因获取和生态位特化。在428个高质量类芽孢杆菌基因组的比较分析中,发现附属和独特部分富含环境适应基因,包括促进有益性状传播的移动遗传元件。对叶际相关和土壤相关菌株的比较分析揭示了不同的环境生存工具包:叶际相关菌株表现出富集的DNA修复和运动趋化性途径以应对叶际胁迫,而土壤相关菌株则优先考虑细胞壁降解酶和孢子形成基因以在土壤基质中生存。此外,识别这些附属库对于揭示有益相互作用的潜在分子驱动因素至关重要。通过破译这些可变基因如何促进宿主定植和生态位占据,该领域可以从分离株的回顾性表征转向预测性的“基因组先行”策略,从而实现微生物功能的理性编排,用于可持续农业干预。
2.2 功能途径的精确挖掘
靶向基因组挖掘允许识别超越简单初级代谢的复杂代谢途径。在此背景下,本部分概述了植物促生和生物防治的基本机制,并强调了作为靶向挖掘蓝图的遗传决定因素。
2.2.1 生物固氮与共生信号传导
生物固氮是最耗能、进化意义最重大的微生物性状之一。固氮能力由nif调节子控制,这是一个编码固氮酶复合体的复杂基因簇。虽然nifH常用作诊断标记,但一个功能性的BNF机制需要结构基因nifHDK以及一系列参与铁钼辅因子生物合成和成熟的辅助基因。在共生谱系中,这个固氮酶复合体与nod、nif和fix基因簇整合在一起。nod基因介导脂壳寡糖信号分子的合成,这对于高保真宿主识别和根瘤器官发生的启动至关重要。这些途径的精确编排,通常由氧感应系统和主调节因子调控,确保固氮与宿主的生理状态同步。
2.2.2 磷酸盐溶解与养分获取
限制性养分(特别是磷)的动员是PGPB的核心功能支柱。P溶解的基因组挖掘主要关注两种策略:无机P的矿物溶解和有机P的矿化。无机P溶解的主要机制是分泌低分子量有机酸,这些有机酸酸化根际并螯合与磷酸盐结合的金属阳离子。葡萄糖脱氢酶基因及其必需辅因子吡咯喹啉醌代表了葡萄糖酸生产的代谢核心。此外,菌株的基因组适应性取决于其在限制条件下感知和转运P的能力,这由pho调节子控制。这包括高亲和力磷酸盐特异性转运系统和双组分phoR-phoB调节系统,后者调节碱性磷酸酶的表达以进行有机P矿化。这些性状通常与高铁载体(如由ent或pvd簇编码)的合成相结合,有助于在根面进行铁竞争。
2.2.3 植物激素调控
除了养分获取,PGPB还通过合成和降解植物激素来调节植物生理。虽然色氨酸依赖的IAA生产途径很常见,但稳健的基因组推断需要识别特定的转化酶。这些包括吲哚-3-丙酮酸途径,以及IAM途径。此外,ACC脱氨酶基因的存在是菌株缓解植物乙烯胁迫、从而增强根伸长和胁迫耐受能力的关键基因组指标。
2.2.4 根际适应性与生物膜形成
这些代谢途径的功效最终取决于菌株的“根际适应性”,即其在土壤基质中迁移并与宿主建立稳定关联的能力。趋化性和运动性对于初始被根系分泌物吸引至关重要。随后的定植由胞外多糖和荚膜的生物合成促进,这些成分是生物膜形成的核心,创造了一个保护性微环境,使群落免受环境干燥和病原体竞争的影响,确保长期功能持久性。
2.3 生物防治和酶系的基因组决定因素
有益微生物利用广泛的分泌酶和专门代谢物来拮抗植物病原体并调节植物环境。与病原体用于突破宿主组织的植物细胞壁降解酶类似,生防剂利用碳水化合物活性酶来靶向真菌和卵菌竞争者的结构完整性。具体来说,几丁质酶、1,3-葡聚糖酶和蛋白酶的存在构成了一个降解顽固真菌细胞壁聚合物的有效酶系。
除了分泌代谢物和酶之外,合成微生物挥发性有机化合物的基因组能力代表了长距离信号传导和生物防治的关键机制。关键的基因组标记包括alsSD和butABC操纵子,它们调节丙酮酸向乙偶姻和2,3-丁二醇的转化。这些挥发物是诱导系统抗性的重要激发子,能在不直接接触的情况下启动植物免疫系统以抵抗广谱病原体。
除了NRPS,生物防治的基因组格局还通过核糖体合成和翻译后修饰肽的发现而扩展,例如细菌素。这些基因簇代表了一种高度特异性的抗菌武器库,可以使用专门的工具进行精确挖掘。此外,这些功能性武器库的功效通常取决于群体感应网络,该网络根据群体密度和环境线索协调基因表达。这些PGP性状在移动遗传元件和基因组岛中的定位进一步强调了植物微生物组的进化可塑性,突显了HGT在有益菌株快速适应新宿主生态位中的作用。
3 功能注释和基因挖掘的生物信息学工具
将原始基因组数据转化为可操作的生物学见解依赖于坚实的生物信息学基础。为了有效绕过“表型瓶颈”,数据处理的初始阶段必须确保基因组序列是分离株代谢潜力的真实代表。在“基因组先行”框架中,组装质量不仅仅是技术细节,而是后续功能注释准确性的主要决定因素。
工作流程始于原始数据的严格质量控制,随后选择针对分离株特定基因组复杂性优化的组装策略。目标是实现高结构连续性,因为片段化的组装通常会导致基因截断和操纵子断裂,从而低估菌株的真实功能库。在进行功能挖掘之前,必须对基因组完整性进行定量评估。这涉及通过识别谱系特异性单拷贝基因来评估组装完整性和污染水平。为确保用于下游分析的高质量序列,研究人员采用完整性>95%和污染<5%的阈值。此外,使用N50指标评估基因组连续性。最后,精确的系统发育基因组学鉴定为功能解释提供了必要的进化背景。超越16S rRNA基因序列,转向基于全基因组的分类学定位,可以清楚地区分有益分离株和密切相关的机会性病原体。这是通过基因组分类数据库工具包稳健实现的,该工具包通过将组装体放入基于多个串联单拷贝标记基因的GTDB参考树中来分配分类学。这种方法,结合平均核苷酸同一性值的计算,确保了高分辨率的分类,克服了单个标记基因的分辨率限制。
3.1 标准化基因组注释
高通量注释是微生物表征的基石。虽然Prokka和RAST多年来一直是公认的基准,但较新的工具(如Bakta)已出现,以提供更优的命名一致性和更快的处理时间,特别是在大规模基因组研究中。这些流程提供了结构框架,在此基础上构建更专业的功能挖掘。
3.2 生长促进和生物防治性状的挖掘
PGP性状的识别需要超越一般代谢注释的专业算法。
3.2.1 PGP专用工具
直到最近,PGP性状的预测还严重依赖于在通用数据库中手动查询以识别候选基因。然而,这些通用资源通常缺乏高分辨率PGP挖掘所需的生态背景。为填补这一空白,专门的网络资源(如PLaBAse)得以开发,为筛选植物相关细菌提供了专用基础设施。该平台集成了PLaBA-db、用于识别细菌植物关联标记的PIFAR-Pred和用于预测特定PGP性状的PGPT-Pred。虽然PLaBAse网络服务器是查询单个基因组的宝贵资源,但它可能产生大量可能不直接参与所需功能活性的潜在命中。这需要进行严格的筛选,以确认完整、同线性基因簇的存在,而不是孤立的基因片段。为确保大规模生物勘探期间的计算效率,专门的流程(如PGPg-finder)有助于简化数百个基因组和宏基因组的分析,特别是在本地执行以规避基于网络平台的限制时。
3.2.2 次生代谢与生物防治
抗菌武器库和专门代谢模块的发现主要由antiSMASH驱动,这是识别生物合成基因簇的金标准。antiSMASH生态系统的最新扩展引入了高度专业化的工具,以满足植物微生物组的特定生态需求。RhizoSMASH能够预测参与根系分泌物分解代谢的基因簇,这是建立根际适应性和生态位占据的关键性状。互补地,epsSMASH有助于识别已知和新型胞外多糖生物合成基因簇,为生物膜形成和环境恢复力的遗传基础提供了见解。为管理这些预测工具的大量输出,整合BiG-SCAPE至关重要。BiG-SCAPE构建序列相似性网络,将BGCs分组为基因簇家族,允许跨数百个基因组进行大规模比较分析。通过将这些簇与MIBiG知识库交叉参考,它可以有效去复制已知途径,并优先考虑真正新颖的生物合成潜力以进行进一步表征。除了非核糖体肽和聚酮化合物,BAGEL等专门资源专注于识别核糖体合成和翻译后修饰肽,例如细菌素。此外,mVOC 4.0数据库是研究微生物挥发物的关键资源,它编录了数千种挥发性有机化合物及其生物学功能。该数据库能够将基因组特征连接到特定的挥发物介导结果,包括ISR和长距离界间信号传导。另外,dbCAN对于CAZymes的自动注释仍然至关重要。
3.3 生活方式推断与多组学整合
预测分离株在根际的行为需要了解其生态“生活方式”。
3.3.1 生活方式评估
bacLIFE工作流程代表了大规模比较基因组学的最先进方法,利用机器学习预测细菌生活方式。这对于像假单胞菌属、肠杆菌属和伯克霍尔德菌属这样的属尤其重要,这些属同时包含生防/PGP剂和强致病菌。
3.3.2 生态稳定性与合作
病毒捕食是根际普遍存在的生物过滤,因为噬菌体是土壤生态系统中最丰富的生物实体,对微生物种群施加显著的自上而下的压力。因此,候选分离株的生态恢复力可以通过DefenseFinder进行评估,该工具识别专门的噬菌体防御系统。这些机制不仅对抵御病毒攻击至关重要,而且是土壤基质中HGT和基因组多样化的关键驱动因素。与此相辅相成,识别社会相互作用的基因组基础对于稳健的群落组装至关重要。SOCfinder能够检测“合作”基因,包括编码分泌的公共产品和胞外蛋白的基因。优先考虑这些社会决定因素可以更准确地预测菌株在SynComs中的表现,将重点从个体适应性转向集体代谢稳定性和在根际的长期持久性。
3.3.3 代谢循环
向“基因组先行”策略的过渡需要能够将功能注释从单个分离株扩展到复杂微生物群落或大规模基因组数据集的工具。METABOLIC流程代表了这种高通量分析的复杂框架,能够快速重建跨数百个基因组或宏基因组组装基因组的代谢网络。通过整合不同的隐马尔可夫模型数据库,METABOLIC绕过了单数据库查询的限制。关键的是,它包含了一个基于先前生化证据的蛋白质基序验证步骤,确保所识别的碳、氮、硫和铁循环途径不仅仅是存在,而且在生物学上是合理的。然而,虽然METABOLIC提供了主要元素循环的广泛概述,但它缺乏用于磷循环的高分辨率专用模块,考虑到磷有效性是全球农业生产力的主要限制因素,这是一个关键的疏忽。为获得PGPB的全面营养和功能谱,必须用PCycDB等专门资源来补充此分析。PCycDB的整合允许精确映射参与无机磷酸盐溶解、有机磷矿化和高亲和力转运系统的基因。
3.4 安全分析:毒力与抗性
开发生物接种剂时一个关键且常被忽视的步骤是早期排除可能对人类健康或生态稳定性构成风险的不良性状。在“基因组先行”框架中,生物安全筛查是获得监管批准和田间应用不可妥协的先决条件。
3.4.1 毒力和抗性决定因素的大规模筛查
当代生物勘探的规模要求专门的流程能够进行高通量重叠群筛查,以确保快速准确的功能注释。Abricate等流程代表了该领域的标准,允许同时针对多个精选数据库查询单个基因组,包括用于抗菌素耐药性的NCBI、CARD、ResFinder和ARG-ANNOT,以及用于毒力因子的VFDB、Ecoli_VF和VICTORS。
3.4.2 区分致病性与功能性自我保护
致病性筛查的解读需要具备生物学上的细微差别。虽然PathogenFinder 2.0和IslandViewer等工具在检测与毒力相关的基因组岛方面很有帮助,但必须区分临床风险和内在代谢机制。为实现这种区分,致病性筛查应辅以比较基因组学方法。VFDB和VICTOR等工具允许识别特定的毒力决定因子,这些因子通常在纯环境分离株中不存在。此外,使用DeepARG等基于深度学习的工具有助于区分土壤微生物中常见的用于生态竞争的内在抗性机制与构成临床威胁的移动抗性基因。通过将这些见解与代谢重建相结合,我们可以阐明基因组性状是服务于宿主定植和植物保护,还是有助于临床致病性。
3.4.3 确保监管和生态合规性
通过利用CARD和ResFinder作为整合筛查流程的一部分,“基因组先行”策略确保候选菌株不携带可能助长多药耐药性全球危机的“耐药组”。例如,在像链霉菌属这样的多产次生代谢物生产者中,抗生素抗性基因通常位于BGC内。在这种情况下,这些基因是生产者菌株必需的自保护机制,而不是致病潜力的指标。破译基因组背景,特别是抗性是内在的还是与高移动性元件相关,对于前瞻性生物制剂的准确风险评估至关重要。基因组风险评估是通过分析已识别的ARGs和毒力因子的侧翼区域进行的。通过利用geNomad、MobileOG-db、ISFinder等工具,我们可以确定这些特征是否位于移动遗传元件上。此外,与模式菌株基因组的比较同线性分析使我们能够区分垂直遗传且通常是核心基因组一部分的祖先内在机制,与构成环境释放重大生物安全问题的获得性元件。用于识别植物促生性状和确保生物安全性的计算工具集总结于表格中。
4 反向生态学:从基因组到生态功能
反向生态学的出现将微生物基因组重新定义为选择压力的历史记录,为高通量遗传数据和大规模生态推断之间架起了桥梁。该框架的核心前提是,生物体的代谢库与其所居住的生化环境密不可分。从序列数据重建基因组规模代谢模型,能够在不需要事先表型观察的情况下描述生境的生化景观。
从基因组序列到生态学见解的转变始于高保真功能注释,通常涉及使用KofamKOALA等工具来分配KEGG Orthology标识符。然后利用这些标识符来映射代谢“种子集”,即生物体无法合成、必须从其环境中获取的必需化合物的集合。基于这种代谢重建,基于图论的算法允许预测复杂的生物相互作用。代谢竞争和合作的指数可以通过RevEcoR和Cooperation Index软件包计算,从而能够在计算机中评估相互作用动力学和功能稳定性。例如,高度的代谢互补性表明潜在的互养关系,其中交叉喂养允许联合体在单个菌株会失败的环境中茁壮成长。
当应用于宿主-微生物相互作用时,该框架利用NetCooperate等专门工具来深入了解植物与其相关微生物群之间的代谢协同作用。生物合成支持分数和代谢互补性指数的量化使得能够预测植物宿主为成功微生物定植提供必要代谢前体的程度。这些相互作用通过与植物化学化合物数据库和MetaCyc交叉参考的结果得到进一步细化,确保预测的交换与宿主植物已知的次生代谢相一致。这些指标对于识别不仅有益而且与特定作物生态兼容的菌株至关重要。
这种方法的实际功效通过其在设计专门针对大豆的细菌联合体中的应用得到例证。在该模型中,反向生态学框架根据高协同潜力和低代谢竞争性,确定了一个由多粘类芽孢杆菌、分支甲基杆菌和肠杆菌属菌株组成的核心组合。互补代谢谱的计算机预测(表明资源重叠最小且可能存在互惠共生)随后通过体外稳定性测定和温室试验得到验证。这些实验证实,基因组引导的菌株选择不仅在没有抑制效应的情况下保持了群落稳定性,而且在初始阶段显著促进了大豆的发育。
然而,尽管具有变革潜力,反向生态学领域目前仍受到重大技术和实验瓶颈的阻碍。许多基础工具仍然过时,或者最初是为小规模数据集开发的,难以跟上现代基因组学和宏基因组学研究产生的数据量。此外,在计算分数和生物现实之间存在关键的“验证缺口”。
5 合成微生物群落的理性设计
单一菌株接种剂的局限性(通常表现为田间表现不稳定和在竞争性土壤基质中生存能力差)推动了对合成微生物群落开发的转变。这些新一代生物制剂复制了自然微生物组的稳健性,同时保持了可控的复杂性。从随机菌株混合到理性设计的转变现在由基因组规模代谢网络驱动,这些网络是生物体全部代谢潜力的综合计算模型。GSMNs的重建能够阐明微生物与其宿主植物之间复杂的代谢相互依赖性,确保由此产生的群落由基因组互补性和功能冗余性定义。
5.1 高通量代谢重建
高性能SynCom的组装始于非人工管理的代谢网络的自动重建,这一过程由metage2metabo套件等工具简化。利用高质量的基因组数据,可以部署PathwayTools来封装每个基因组中编码的代谢反应和途径。在大规模基因组分析中,使用mpwt实用程序来协调多输入并发的PathoLogic环境,然后使用m2m recon命令构建基础网络。这种整合方法允许评估群落的集体代谢潜力,揭示单个菌株如何贡献于整体生态系统功能。
5.2 纳入宿主特异性约束
为了超越理论的代谢潜力,GSMNs必须通过纳入宿主植物和根际营养环境的代谢约束来加以完善。通过使用模拟根系分泌物的生长培养基作为“种子集”,可以预测仅限于在根区特定化学生态位中实际可生产的代谢物输出。这一步对于缩小预测相互作用的搜索空间并聚焦于微生物可用的实际代谢生态位至关重要。正如最近的基因组引导研究所证明的那样,该框架有助于识别提供基本服务的“核心”群落成员,同时识别增强联合体对环境波动恢复力的“附属”菌株。
5.3 平衡互补性与冗余性
最终,SynComs的理性设计取决于代谢互补性和功能冗余之间的战略平衡。代谢互补性是指菌株占据不同的生态位或进行互养,而功能冗余则确保单个菌株的损失不会导致群落有益性状的崩溃。这种平衡行为从根本上建立在先前章节详述的高分辨率功能表征之上,这些信息被整合到反向生态学框架中以预测相互作用。通过利用GSMNs和m2m等工具,该领域正朝着可预测地编排微生物功能迈进。这一策略不仅加速了有效生物接种剂的发现,而且确保了其长期的稳定性和兼容性。

生物通微信公众号
微信
新浪微博


生物通 版权所有