首个端粒到端粒完整小鼠基因组揭示着丝粒与端粒结构多样性

时间:2025年10月22日
来源:Nature Genetics

编辑推荐:

本研究针对当前小鼠参考基因组GRCm39存在281个序列缺口、缺乏完整端粒和着丝粒序列的问题,通过单分子超长测序技术完成了C57BL/6J和CAST/EiJ两个近交系小鼠的T2T(端粒到端粒)基因组组装。研究发现两个亚种在着丝粒大小(C57BL/6J中位值11.1 Mb,CAST/EiJ 12.9 Mb)和端粒相关重复序列结构存在显著差异,新增213 Mb序列包含517个蛋白质编码基因,并完整解析了假常染色体区(PAR)和KRAB锌指蛋白(KZFP)基因簇。该研究为哺乳动物染色体结构和进化研究提供了重要资源。

广告
   X   

二十多年来,C57BL/6J小鼠参考基因组一直是哺乳动物疾病生物学研究的关键催化剂。然而,这个参考基因组仍然缺少端粒和着丝粒序列,包含281个染色体序列缺口,许多生物医学相关位点仅部分呈现。随着超长DNA片段(>100 kb)高通量测序技术的出现,科学家们获得了组装完整染色体序列的独特机遇,正如最近首个人类T2T基因组所展示的那样。
在这项发表于《Nature Genetics》的研究中,研究人员利用单分子超长测序技术首次完成了代表小鼠两个亚种(Mus musculus)的近交系C57BL/6J和CAST/EiJ的T2T基因组组装。这些完整的基因组揭示了着丝粒和端粒大小及结构组织的显著变异性,为理解染色体稳定性的维持机制提供了新的视角。
研究人员采用PacBio HiFi(188×覆盖率)和Oxford Nanopore超长测序(70×覆盖率)技术对CAST/EiJ × C57BL/6J F1雄性胚胎干细胞DNA进行测序。通过基于家系的基因组组装方法,使用Verkko和Hifiasm两种组装器生成六个不同组装体,并应用一系列质量控制措施选择最佳基础组装。经过一轮优化和一轮抛光处理,基础准确性得到显著提高,C57BL/6J的QV值从47.7提升至54.9。
染色体结构和注释
与GRCm39相比,两个T2T组装体的常染色体无间隙长度持续更长,分别为C57BL/6J增加208 Mb、CAST/EiJ增加247 Mb新序列。基因注释显示,T2T C57BL/6J和CAST/EiJ分别包含21,423和21,440个蛋白质编码基因,新发现225个(C57BL/6J)和355个(CAST/EiJ)新基因,主要编码锌指蛋白等已知蛋白质。
端粒和着丝粒结构
研究首次完整揭示了小鼠端着丝粒染色体(TLC)末端的结构特征。着丝粒区域主要由小鼠主要卫星(234-bp重复单体)和次要卫星(120-bp重复单体)组成。在T2T基因组中,主要卫星序列占C57BL/6J和CAST/EiJ常染色体的7.5%和8.4%,而次要卫星序列在GRCm39中完全缺失,在T2T基因组中分别达到13.07 Mb和16.5 Mb。
C57BL/6J的TLC染色体末端显示出跨染色体共享的重复组织结构,特征为保守的L1-MdA3家族LINE元件,随后是TLC阵列。相反,CAST/EiJ的TLC染色体末端结构高度异质,没有明确的共享重复组织,且含有C57BL/6J中未观察到的着丝粒卫星重复。
完善小鼠参考基因组
T2T C57BL/6J组装体完全跨越了GRCm39中87个常染色体缺口的80个(92%),部分闭合剩余7个缺口,为小鼠基因组新增约12.7 Mb序列。缺口填充序列中包含190个蛋白质编码基因,功能特征显示这些基因主要属于跨膜信号受体类别。
假常染色体区(PAR)
研究组装了CAST/EiJ X染色体PAR序列,发现十个基因(其中四个为新基因)和四个假基因,这些基因显示与人类PAR1的同线性。不同品系在PAR边界位置、片段重复的拷贝数和大小以及PAR基因中的氨基酸替换突变数量方面存在差异。
倒位
通过比较T2T组装体,研究人员在C57BL/6J、CAST/EiJ和mhaESC之间识别出133个大于1 kb的倒位。倒位断点显示对片段重复(SD)以及LINE和LTR反转录转座子的富集,表明这些重复可能在倒位形成中发挥作用。约60%的倒位显示与非等位基因同源重组(NAHR)一致的模式,其中约50%与LINE相关。
KRAB锌指蛋白基因座
T2T组装极大改善了KZFP(KRAB锌指蛋白)的覆盖度。染色体2和4的远端臂包含两个最大的KZFP簇,在GRCm39中不完整。T2T组装解析了这些KZFP簇的序列,在C57BL/6J T2T基因组中鉴定出超过48个新的推定KZFP,并发现KZFP簇中的大规模结构变异。
这项研究标志着小鼠遗传学的一个重要里程碑,首次为两个高度使用的小鼠品系提供了T2T参考基因组,新增213 Mb序列包含约517个蛋白质编码基因。研究揭示了着丝粒和端粒在大小和结构上的差异,完善了PAR、KZFP基因座和富含免疫基因座的缺口区域。完整的基因组序列将加速功能实验和进化分析,为理解哺乳动物基因组的调控和进化机制提供坚实基础。未来将T2T参考基因组扩展到更多品系,将形成小鼠泛基因组的基础,全面展现小鼠的遗传多样性。

生物通微信公众号
微信
新浪微博


生物通 版权所有