在微生物的世界里,质粒(plasmid)如同一个个微型的基因“快递员”,它们是独立于染色体之外的环状DNA分子,能够在不同细菌之间穿梭,传递诸如抗生素耐药性等重要基因。这种水平基因转移(horizontal gene transfer)过程是细菌快速适应环境、产生耐药性的关键机制之一。然而,尽管研究表明约50%的细菌携带质粒,但在基因序列数据库中,质粒的序列代表性却远远不足。例如,RefSeq数据库中含有82,471个细菌基因组,但仅有7,892个质粒序列。这种巨大的差距背后,是研究质粒面临的严峻挑战。
传统的质粒研究大多依赖于对实验室分离培养的菌株进行分析,但绝大多数环境微生物难以在实验室条件下培养,这造成了所谓的“培养瓶颈”(cultivation bottleneck),使得我们无法真实反映自然环境中质粒的多样性和功能。宏基因组学(metagenomics)技术提供了一条不依赖培养、直接对环境样本中所有微生物DNA进行测序分析的途径。但要从宏基因组数据中准确地将质粒序列“拼装”出来,却困难重重。首先,质粒具有高度的“嵌合性”(mosaicism),即它们经常发生重组,共享相同的“骨架”(backbone)序列,但携带的“货物”(cargo)基因却千差万别。其次,高拷贝数的质粒其突变率也更高,导致种群内存在微多样性(microdiversity),这给基于de Bruijn图的组装器带来了难题。此外,质粒富含与转座因子相关的重复序列,这使得它们在组装图中往往高度碎片化且相互纠缠。
现有的质粒组装工具,如Recycler、metaplasmidSPAdes和SCAPP,主要依赖于单一样本的组装图(assembly graph),通过寻找图中的环形路径来识别质粒。组装图是一种表示测序读段之间重叠关系的数据结构,连续的序列(contig)表示为节点,重叠部分表示为边。然而,这种方法存在根本性局限:低测序深度会导致“碎片化问题”,使得一些质粒在图中显得不连续,无法被识别;质粒的高重组率会导致组装图结构纠缠不清,阻碍环形路径的检测;而且,一些工具依赖于已知的质粒基因特征来引导路径提取,这对未表征的新型质粒不敏感。
另一种计算策略是“分箱”(binning),它不依赖于组装图的连续性,而是根据序列本身的特征(如k-mer组成、在不同样本中的丰度模式、组装图连通性等)将可能来自同一个基因组的contig进行分组,从而重建基因组。分箱方法对覆盖度碎片化问题不敏感。我们之前开发的VAMB(variational autoencoder for metagenomic binning)工具就是利用变分自编码器(VAE)将多种特征融合到一个潜在空间中进行聚类,效果显著。
为了克服现有方法的局限性,研究人员在《Nature Biotechnology》上发表了题为“Accurate plasmid reconstruction from metagenomics data using assembly–alignment graphs and contrastive learning”的研究,引入了全新的方法PlasMAAG(plasmid and organism metagenomic binning using assembly–alignment graphs)。该方法的核心创新在于构建了“组装-比对图”(assembly–alignment graph, AAG),将单个样本内部的组装图信息与跨样本的序列比对(alignment)信息相结合,并利用对比学习(contrastive learning)增强VAE的训练,从而实现了对质粒和细胞基因组更精准、更全面的重建。
为开展研究,作者主要运用了几项关键技术:1. 构建跨样本的组装-比对图(AAG),整合样本内组装图边和样本间高精度比对边;2. 使用fastnode2vec算法从AAG中提取contig群落(community)初稿;3. 开发了对比学习-VAE(contrastive-VAE)模型,将传统的k-mer频率、contig丰度等特征与AAG群落信息共同嵌入到潜在空间;4. 针对质粒和细胞基因组的不同特性,分别采用群落聚类和密度聚类两种策略进行分箱;5. 利用geNomad工具对分箱结果进行质粒/非质粒分类,并通过聚合群落内contig的评分提升分类准确性。研究数据包括重新组装的CAMI2模拟基准数据集和真实的医院污水样本(来自丹麦和西班牙)的短读长、长读长及质粒组学(plasmidomics)数据。
结果
PlasMAAG概述
PlasMAAG流程旨在从宏基因组样本中恢复质粒和细胞基因组。与VAMB相比,PlasMAAG引入了三大新特性:首先,它利用contig比对图将多个样本的每样本组装图合并成一个单一的AAG图,该图通过fastnode2vec投影到嵌入空间,从中提取高度相关的contig群落。其次,通过增加基于AAG信息的对比学习来增强VAE的训练。第三,利用分箱结果对geNomad的contig注释分数进行集成,从而将分箱分类为质粒或细胞基因组。
PlasMAAG在基准数据集上性能卓越
在重新组装的CAMI2短读长人类微生物组模拟数据集上,PlasMAAG展现出显著优势。与第二好的分箱工具VAMB相比,PlasMAAG重建的近完整(near-complete, NC)分箱数量多出5-64%,中等质量(medium-quality, MQ)分箱多出10-57%。这一性能提升主要源于对质粒重建的改进:PlasMAAG重建的NC(MQ)质粒比分箱工具SemiBin2、ComeBin、MetaBAT2、MetaDecoder、CONCOCT和VAMB多出50-121%(41-102%)。与质粒组装器SCAPP相比,PlasMAAG在4/5(5/5)的数据集上重建的NC(MQ)质粒比SCAPP cycles多出14-40%(17-45%)。当评估PlasMAAG生成的置信质粒分箱(geNomad质粒阈值高于0.95)时,其重建的NC(MQ)质粒分箱比SCAPP confident多出21-212%(50-171%)。PlasMAAG置信质粒集涵盖了更广泛的质粒多样性,其独有的NC和MQ质粒分箱数量远高于SCAPP confident独有的分箱。同时,PlasMAAG在细胞基因组重建方面也极具竞争力,仅比最好的细胞基因组分箱工具少重建0.7-12%的NC分箱。重要的是,PlasMAAG置信质粒集在质粒纯度(plasmid purity rate)和回收率(plasmid recovery rate)之间取得了更好的平衡,其F1 分数比SCAPP confident高出14-43%。通过平均geNomad在群落内的评分,PlasMAAG还显著改善了contig水平的质粒/非质粒分类性能,AUPRC和MCC分别提升了28-69%和42-131%。
AAG整合跨样本的比对和组装图
AAG是PlasMAAG的核心特征。研究人员首先对单样本组装图的边进行了加权(如归一化连接度,normalized linkage),以强调分类学上相关contig之间的连接。然后,通过跨样本的严格比对(限制性比对,restrictive alignments,identity≥98%,长度≥500 bp)构建比对图(alignment graph),并进行边加权(如归一化比对度,normalized alignment)。由于组装图边和比对图边是互补的(分别连接样本内和样本间contig),将它们简单合并即构成AAG。评估表明,AAG边的权重与contig在基因组或物种水平上的分类学亲缘关系高度相关,AUPRC达到0.69-0.90(基因组水平)和0.93-0.97(物种水平)。利用fastnode2vec对AAG进行嵌入后提取的contig群落(community)具有很高的精确度,但通常只包含基因组的碎片。
对比学习VAE通过聚合、合并和分割群落改进分箱
为了解决AAG群落的碎片化问题,PlasMAAG使用对比学习-VAE将传统的k-mer组成、丰度等特征与AAG群落信息相结合。其在VAE损失函数中增加了一个对比损失项(contrastive loss),惩罚同一群落内contig在潜在空间中的过大距离。随后,对VAE嵌入进行“基于群落的聚类”(community-based clustering),包含三个关键步骤:合并(merging)潜在空间中相近的群落以减少碎片化;分割(splitting)潜在空间中分散的群落以提高精确度;扩展(expansion)将邻近的未分配contig加入群落以提高召回率。这一策略使基因组的召回率相比原始群落提升了46-102%,F1 分数和NC分箱数量也显著增加。对比损失项的引入本身也对分箱性能有积极影响。
质粒和细胞基因组需要不同的聚类策略
研究发现,细胞基因组因其尺寸较大,在AAG群落中比质粒更碎片化。并且,质粒和细胞基因组在k-mer组成、contig共丰度和PlasMAAG潜在表征上表现出不同模式。因此,PlasMAAG采用差异化策略:对质粒候选序列使用基于群落的聚类(更适用),对非质粒序列则在使用密度聚类(density-based clustering,如VAMB的迭代中心点聚类)前,先移除已识别的质粒contig。利用geNomad对群落进行评分并平均,能更准确地区分质粒和细胞基因组。然而,geNomad阈值的选择需要在质粒提取和细胞基因组回收之间进行权衡。研究还表明,PlasMAAG的质粒重建性能对不同基因内容、拷贝数或长度(除超过500 kb的极大质粒外)没有明显偏好,并且在引入噬菌体序列的数据集中也能保持稳健。
利用配对短读长和长读长样本验证PlasMAAG质粒分箱
在真实的丹麦医院污水样本(同时拥有短读长、长读长和质粒组学数据)上,PlasMAAG得到了进一步验证。利用长读长contig作为评估短读长分箱的参考,PlasMAAG基于群落的聚类重建的长读长contig数量比VAMB多117%。在质粒重建方面(以具有环化证据或质粒组学读段覆盖的长读长contig为参考),PlasMAAG重建了33个NC长读长质粒contig,比VAMB多22%,比SCAPP cycles多136%。然而,验证也暴露了geNomad在未知环境中的局限性,其对许多有实验证据支持的质粒评分较低,提示大量质粒多样性尚待发现。PlasMAAG的细胞基因组重建则保持竞争力。
从医院污水环境中识别宿主-质粒关联
PlasMAAG能够同时重建质粒和细胞基因组,从而支持宿主-质粒关联研究。对24个西班牙医院污水样本的分析中,PlasMAAG产生了大量候选质粒分箱和细胞分箱。通过跨样本聚类和丰度相关性分析,研究人员发现了825个显著的质粒-细胞簇正相关关系。其中部分与PLSDB数据库中已知的宿主-质粒关联一致,但更多是未见报道的新关联,为后续研究提供了线索。
研究跨医院污水样本的质粒内变异
PlasMAAG的跨样本聚类能力使得能够追踪不同样本中高度相似的质粒,并利用AAG中的比对关系研究其序列变异。例如,对一个名为nneighs_76的质粒簇的深入分析显示,其在不同样本中的分箱共同覆盖了与质粒pAsa4c高度相似的90 kb区域。通过比对信息,可以识别出一些不匹配pAsa4c但存在于多个分箱中、且彼此间具有同线性的contig,这些区域恰好位于已知的重组热点附近,揭示了真实的质粒内变异(intraplasmid variation)。
结论与讨论
质粒在水平基因转移中扮演着关键角色,但因其动态和不稳定的组成,从环境样本中研究质粒一直充满挑战。PlasMAAG通过引入AAG这一创新特征,成功整合了跨样本的组装图信号,并结合对比学习VAE,实现了对质粒和细胞基因组的精准分箱。其在模拟和真实数据集上均显著优于当前领先的质粒组装器SCAPP,重建了更多质粒分箱,并在纯度与回收率间取得了更好平衡,同时保持了竞争力的细胞基因组重建能力。
PlasMAAG的强大能力使得一系列下游分析成为可能。其重建的质粒和宿主基因组为研究宿主-质粒关联提供了丰富资源,虽然相关性分析仅为初步证据,但指明了方向。更重要的是,AAG支持的跨样本聚类使研究人员能够深入探索不同环境中相似质粒的序列变异,即质粒内多样性,这是传统单样本方法难以实现的。
研究表明,基于分箱群落聚合geNomad评分能有效改善质粒识别,但也警示了现有识别工具在未知环境中的局限性。PlasMAAG的成功凸显了AAG和对比学习在整合复杂基因组信号方面的价值。随着测序技术的进步(如长读长测序产生更长的contig),跨样本比对在桥接组装图间隙方面的作用将愈发重要。
总之,PlasMAAG代表了质粒和微生物基因组分箱领域的重要进展。它通过创新的AAG和对比学习策略,解决了质粒分箱中的长期挑战,为全面研究微生物群落、宿主-质粒相互作用和质粒动力学提供了强大的新工具。
打赏