莱姆病,作为一种由伯氏疏螺旋体复合群引起的蜱媒人畜共患病,其发病率在全球范围内呈上升趋势,尤其在加拿大,由于气候变化和黑腿蜱的北向扩张,已成为一个重要的公共卫生问题。然而,尽管该病的威胁日益加剧,科学家们对引起加拿大本土莱姆病的伯氏疏螺旋体菌株的基因组全貌却知之甚少。传统的基因组测序方法在面对伯氏疏螺旋体独特的基因组结构时常常力不从心,导致许多关键信息缺失,这限制了对该病原体变异、进化和致病机制的深入理解。
伯氏疏螺旋体的基因组堪称细菌世界的“异类”。它不像大多数细菌那样拥有一个环状染色体,而是包含一个线性染色体和多个线性和环状质粒。更特别的是,这些线性DNA分子的末端并非裸露,而是以一种独特的“发夹”结构——共价闭合的发夹端粒收尾。这种结构使得利用传统短读长测序技术进行完整基因组组装变得异常困难,因为测序读长难以跨越发夹环,导致端粒区域信息缺失。此外,其众多的质粒之间存在着高度的序列同源性,呈现出复杂的镶嵌结构,这给准确区分和组装各个质粒带来了巨大挑战。正因如此,尽管已有部分加拿大菌株的基因组草图,但真正完整的、包含所有端粒和质粒的“端粒到端粒”基因组序列仍然匮乏,阻碍了我们对这些本土菌株遗传多样性和潜在毒力的准确评估。
为了填补这一空白,一项发表在《Cell Reports》杂志上的研究应运而生。由Amin等人领导的研究团队,开发了一套创新的混合基因组组装流程,结合了牛津纳米孔技术的长读长测序和Illumina的短读长测序优势,成功对来自加拿大西北安大略省五个地区和马尼托巴省一个地区的九株伯氏疏螺旋体分离株进行了高质量的端粒到端粒完整基因组组装。这项研究不仅提供了宝贵的基因组资源,更深入揭示了加拿大菌株在染色体端粒、质粒组成和关键表面蛋白基因方面的惊人多样性。
研究人员为攻克伯氏疏螺旋体基因组组装的难题,开发了一套优化的生物信息学流程。该流程的核心是结合使用牛津纳米孔技术的长读长和Illumina的短读长测序数据。对于线性染色体的组装,他们采用了Trycycler工具,利用其共识策略整合多种组装器(如Canu, Flye, Raven)的结果,以获得高质量的染色体骨架。针对复杂的质粒组装,他们首先使用专门为质粒设计的Plassembler软件进行初步组装,随后针对线性质粒特有的发夹端粒结构,开发了名为“端粒末端延伸”的自定义模块,通过提取并重新组装映射到质粒末端的纳米孔长读长,来重建和验证完整的端粒结构,并对环状质粒进行环化验证。所有组装出的 contigs 均通过将原始测序读长回贴进行验证,并使用Bakta进行基因注释。研究所用的菌株样本来源于2016年从加拿大安大略省和马尼托巴省的特定地点收集的感染蜱虫。
结果
端粒到端粒B. burgdorferi线性染色体的组装
研究成功获得了九个Bb菌株的端粒到端粒完整基因组组装。利用ONT长读长测序能够在一个读长内捕获端粒末端的反向重复序列的特性,研究团队无需对端粒进行单独组装,即成功解析了所有菌株线性染色体两端的发夹端粒结构。自我比对点图分析显示,除一株菌的右端粒外,所有菌株的端粒均检测到长度在10至37 kb之间的反向重复序列,证实了端粒组装的完整性。
基因组组装揭示了保守端粒序列的多样性
尽管成功组装了端粒,但精确定位发夹结构的“拐点”以进行准确修剪仍具挑战。通过比对参考菌株B31的已知保守端粒序列,研究在所有组装菌株的染色体中均定位到了这些序列,从而确定了精确的翻转位点。分析发现,左端粒序列比右端粒更为保守。九个菌株中有四个在左端粒存在单核苷酸多态性,而右端粒序列则表现出更高的变异性,其中一个菌株与参考序列的相似性仅为56%。值得注意的是,这些变异大多位于已知的保守基序(如ATATTA和ATCATYTNT)之外,并且所有菌株均携带这些基序,表明它们都属于I型端粒。
系统发育分析显示加拿大境内外的遗传多样性
基于线性染色体保守区域的SNP系统发育分析表明,来自马尼托巴省的三个菌株在SNP谱上高度相似,而来自安大略省的六个菌株则显示出更大的多样性,并非单系群。将分析扩展到包括来自加拿大其他省份、美国及欧洲的共121个公开基因组后,构建的最大似然系统发育树显示,尽管不同地理来源的B. burgdorferi线性染色体高度保守且共线性,但检测到的微小遗传差异与地理来源并无强相关性,提示伯氏疏螺旋体可能在加拿大各省和美国之间快速迁移。
线性染色体的变异性源于右端粒末端
对九个组装菌株和参考菌株B31的核心保守区域(约847 kb)进行比较分析发现,与共识序列相比,在B31染色体右端约107 kb的区域存在SNP聚集现象,平均每5 kb有99个SNP,而染色体前740 kb区域平均每5 kb仅有26个SNP,凸显了这些加拿大菌株与当前参考菌株之间的显著差异。此外,MAUVE比对显示,变异性区域从约865 kb开始,不同菌株的右端粒末端长度存在5–10 kb的差异,且在该区域观察到基因重排,进一步证实了紧密相关的Borrelia菌株不仅通过点突变,也通过可变区域的基因重排进行演化。
右端粒末端的延伸携带了质粒lp28-1的基因组片段
研究观察到,所有九个菌株的线性染色体右端均携带了一段与菌株64b的线性质粒lp28-1前约10 kb序列高度相似(>98% identity)的DNA片段,该片段长度在菌株间有所不同(约2.4 kb 到 9.5 kb)。该片段包含来自lp28-1的完整基因,如argF、BBU64B_F0011等,表明即使在亲缘关系很近的菌株间,右端粒的基因组可塑性也可能导致基因含量的差异。有趣的是,尽管所有菌株的染色体末端都整合了lp28-1的片段,但研究中未能组装出任何一个完整的lp28-1质粒。
线性和环状质粒的完整组装
利用优化的组装流程,研究成功为每个菌株组装了10至15个质粒,包括14种环状质粒类型和15种线性质粒类型。其中,cp26和lp54这两种保守质粒在所有九个菌株中均被组装出来。对位于cp26上的ospC基因进行分型,将菌株分为7种已知的致病型(A, B, C, D, F, H, N)。基于质粒相似性得分的聚类分析显示,菌株的质粒谱与其核心基因组的系统发育关系大致相关。特别值得注意的是,在菌株Bb16 22中发现了一个独特的lp28-1a亚型质粒。
鉴定出菌株Bb16 22中的一个lp28-1a亚型线性质粒
该质粒约28 kb,携带vlsE基因盒,但其序列并非与某个已知lp28型质粒完全一致,而是由来自lp28-1以及其他五个不同线性质粒(lp25, lp28-3, lp38, lp28-2, lp36)的DNA片段融合而成,形成了一种镶嵌结构。通过针对六个重组连接点的特异性PCR实验,验证了该融合质粒仅在Bb16 22中存在,而在不携带该质粒的Bb16 131中则无法扩增,证实了组装的准确性。
讨论与结论
本研究成功开发了一套高效、自动化的流程,用于组装伯氏疏螺旋体复杂的基因组,显著减少了传统方法所需的大量人工干预。通过应用该流程,获得了九株加拿大本土伯氏疏螺旋体菌株的高质量端粒到端粒完整基因组,为莱姆病研究领域提供了极其宝贵的资源。
对这些基因组的深入比较分析揭示了出乎意料的遗传多样性。尽管这些菌株采集自地理上邻近的区域,但其线性染色体的右端粒保守序列、端粒长度、以及携带的质粒lp28-1样DNA片段插入的长度和基因内容均存在显著差异。更重要的是,研究发现了一个此前未知的线性质粒融合事件,即lp28-1a亚型质粒,这凸显了伯氏疏螺旋体质粒基因组的高动态性和可塑性。
这些发现具有重要的生物学意义。染色体右端粒与质粒序列的重组交换,以及不同质粒之间的融合,可能是伯氏疏螺旋体快速进化以适应不同宿主和环境压力的机制之一。研究所揭示的菌株间在关键表面蛋白(如OspC)和抗原变异系统(如VlsE)上的差异,对于理解莱姆病临床表现的多样性、开发更精准的诊断工具以及评估疫苗策略的广度具有重要启示。例如,针对特定OspA蛋白的疫苗需要考虑流行菌株中该蛋白的多样性。
总之,这项研究不仅提供了高质量的加拿大伯氏疏螺旋体基因组资源,而且通过揭示其隐藏的基因组多样性,深化了我们对这种重要病原体进化动力学和潜在致病机制的理解。所开发的基因组组装方法也有望应用于其他拥有复杂基因组的微生物研究。未来,需要进一步的功能研究来探讨所观察到的基因组变异,特别是lp28-1a亚型质粒和染色体端粒的插入片段,对细菌适应性、毒力和免疫逃逸的具体影响。