基于土壤宏基因组的太规模长读长测序挖掘新型生物活性分子并发现罕见作用机制抗生素

时间:2025年9月13日
来源:Nature Biotechnology

编辑推荐:

为解决未培养细菌生物合成基因簇(BGC)挖掘困难的问题,研究人员开发了一种基于nycodenz分离和纳米孔长读长测序的土壤宏基因组研究方法,成功从单一土壤样本中获得563个完整或近乎完整的微生物基因组,并通过合成生物信息学天然产物(synBNP)策略发现靶向ClpX和心磷脂的强效抗生素,为耐药菌感染治疗提供了新方案。

广告
   X   

土壤中蕴藏着地球上最丰富的微生物多样性,其中绝大多数细菌无法通过传统培养方法获得,被称为"微生物暗物质"。这些未培养微生物携带的生物合成基因簇(BGC)能够产生结构新颖的生物活性分子,特别是非核糖体肽(NRP)类化合物,已成为新型抗生素发现的重要来源。然而,由于土壤成分复杂,提取高质量宏基因组DNA困难,加上短读长测序技术的局限性,导致宏基因组组装碎片化严重,难以获得完整的BGC信息。

以往研究主要依赖宏基因组组装基因组(MAG)方法,但MAG通常存在基因组不完整、序列污染等问题。虽然长读长测序技术能够产生更长的连续序列,但土壤中腐植酸等抑制剂的共存使得DNA提取质量不佳,读长较短,限制了其在复杂土壤宏基因组研究中的应用。

在这项发表于《Nature Biotechnology》的研究中,研究团队开发了一种创新的土壤微生物分离和DNA提取方法,结合优化后的纳米孔长读长测序技术,成功实现了对土壤宏基因组的高质量测序和组装,并从中发现了具有新型作用机制的抗生素分子。

研究人员主要采用了以下关键技术方法:首先使用nycodenz梯度离心和脱脂奶清洗从土壤基质中分离微生物细胞,然后通过 Monarch 高分子量DNA提取试剂盒和牛津纳米孔公司的片段筛选试剂盒进行DNA提取和大小选择,最终使用PromethION R10.4.1测序芯片和Dorado碱基识别软件产生2.5 Tbp的长读长数据。采用metaFlye进行宏基因组组装,通过antiSMASH进行BGC预测,并运用合成生物信息学天然产物(synBNP)策略将预测的NRPS BGC转化为化合物库进行活性筛选。

Scalable access to microbial dark matter

研究人员开发了一种创新的土壤微生物分离方法,首先通过nycodenz梯度离心将细菌从土壤基质中分离,然后使用脱脂奶清洗去除杂质,获得类似于实验室培养物的细菌悬浮液。与直接土壤提取相比,这种方法提取的DNA片段更大、质量更高,读长N50达到32.82 kbp,是传统150-bp短读长技术的200倍。

Assembly of large contiguous metagenomic sequences from a soil metagenome

通过对528.5 Gbp高质量长读长数据(Q20+,>20,000 bp)进行组装,获得了32 Gbp的序列,N50达到262 kbp,包含超过3,200个>1 Mbp的contig。与此相比,以前的短读长土壤宏基因组研究即使使用超过3 Tbp数据,组装N50也只有约1.6 kbp。

Exploration of long contiguous metagenomic assemblies

研究人员筛选出563个单连续组装序列(>1 Mbp),这些序列包含5S、16S和23S核糖体RNA基因以及至少18个转运RNA,符合近乎完整MAG的标准。其中206个为环状组装,平均大小4.95 ± 2.05 Mbp;357个为线性组装,平均大小3.99 ± 1.88 Mbp。CheckM质量评估显示,79%的环状组装满足近乎完整标准(>90%完整性,<5%污染)。

Expansion of enigmatic bacterial taxa

完整和近乎完整的宏基因组数据集涵盖了16个门类,其中只有4个序列(0.7%)与已知物种匹配。研究显著扩展了多个未充分探索的分类单元,包括UBP17门、Capsulimonadaceae科以及Eremiobacterota门中的Lusstibacter和DAIDGSO1属。

Targeted assembly of NRPS BGCs

通过隐马尔可夫模型(HMM)搜索识别包含A结构域的读长,并进行分区组装,获得了118,000个contig(N50为111 kbp)。聚焦于包含4个或更多A结构域的大型NRPS BGC,最终得到338个contig,包含366个BGC簇,其中仅有6个能在MiBiG数据库中找到对应物。

NRPS BGC selection, prediction and synthesis

研究人员选择了20个具有不同系统发育起源的NRPS BGC进行synBNP结构预测和合成。针对每个预测,合成了多种可能的产物(线性、通过末端胺环化、通过3-OH脂肪酸环化、通过亲核氨基酸侧链环化),最终构建了包含55个synBNPs的化合物库。

Bioactivity screening

活性筛选发现两个具有显著抗菌活性的化合物:erutacidin(对革兰氏阳性菌和革兰氏阴性菌均有活性)和trigintamicin(特异性抑制金黄色葡萄球菌)。erutacidin对多重耐药菌株保持强效活性,而trigintamicin在30°C显示活性但在37°C无活性。

Mode of action (MOA) determination

通过耐药突变体筛选和测序,发现trigintamicin的靶点为ClpX蛋白酶。等温滴定量热法(ITC)证实了trigintamicin与ClpX的直接结合。erutacidin则通过膜去极化发挥作用,DiSC3(5)去极化实验显示其能快速破坏膜完整性。脂质补充实验表明,心磷脂(cardiolipin)和磷脂酰甘油(PG)能显著抑制erutacidin的活性,表明其与这些膜脂的特异性相互作用。

研究结论表明,通过优化长读长测序技术,研究人员成功实现了从复杂土壤样本中解析完整连续宏基因组基因组的目标,不仅增进了对环境细菌群落组成的理解,还深入揭示了其编码的生物合成潜力。通过synBNP发现策略,将宏基因组中预测的BGC直接转化为生物活性分子,发现了具有罕见作用机制的抗生素,其中erutacidin通过靶向心磷脂发挥广谱抗菌活性,且不易产生耐药性;trigintamicin则特异性靶向ClpX蛋白酶。

这项研究建立了一个将微生物暗物质遗传多样性转化为生物活性分子的系统化流程,为从难以培养的细菌资源中发现新型抗生素提供了可扩展的策略。随着长读长测序技术和生物信息预测算法的不断进步,这种方法有望成为挖掘天然产物资源的强大工具,为解决抗生素耐药性危机提供新的解决方案。

生物通微信公众号
微信
新浪微博


生物通 版权所有