在基因组学的广阔画卷中,串联重复序列(Tandem Repeats, TRs)如同神秘而复杂的纹路,长期以来挑战着研究人员的解读能力。这些由1-6个碱基对组成的短串联重复序列(Short Tandem Repeats, STRs)和大于7个碱基对的可变数目串联重复序列(Variable Number Tandem Repeats, VNTRs)共同构成了人类基因组的约7-8%。然而,由于技术限制,我们对这些重复元件的全面认知一直存在巨大空白。
传统短读长测序技术(Next-Generation Sequencing, NGS)的读长限制(约150-250 bp)使得只有被测序读长完全覆盖的TRs才能被准确基因分型。这一技术瓶颈导致了许多长度超过300-500 bp的TRs无法被准确表征,而正是这些较长的重复序列与多种神经系统疾病密切相关。研究表明,TR扩展可引起超过65种神经性疾病和14种神经肌肉疾病,其致病性扩展长度可达数千碱基对。此外,近期研究还发现TR变异与癌症、自闭症以及其他复杂性状和疾病存在关联。
随着牛津纳米孔技术(Oxford Nanopore Technologies, ONT)和太平洋生物科学(Pacific Biosciences, PacBio)长读长测序(Long-Read Sequencing, LRS)技术的发展,科学家现在能够获得15-100 kb或更长的读长,为全面解析TRs提供了前所未有的机会。LRS不仅能够准确确定TR的长度和序列组成,还能揭示其表观遗传特征,为理解TR在基因表达调控、基因组稳定性和染色质结构中的作用提供了新的视角。
为了填补这一知识空白,研究人员开展了一项大规模研究,旨在构建迄今为止最全面的人类基因组TR目录。该研究利用了来自人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)、人类基因组结构变异联盟(Human Genomes Structural Variation Consortium, HGSVC)和1000基因组ONT测序联盟(1000 Genomes ONT Sequencing Consortium, 1KGP-ONT)的272个个体的长读长测序数据。
研究团队开发了一套创新的分析流程,结合了基于组装的TR检测和基于读长的基因分型方法。他们使用串联重复查找器(Tandem Repeat Finder, TRF)以宽松参数设置从高质量的二倍体组装中检测TRs,同时使用Straglr软件分析测序读长的比对结果,以识别相对于参考基因组扩展至少100 bp的TR位点。通过将基于组装的结果与基于读长的结果进行交叉验证,研究人员确保了基因分型的准确性。
该研究构建的GRCh38目录包含5,061,501个TR位点(4,331,648个STRs和729,853个VNTRs),而基于T2T-CHM13参考基因组的目录包含5,113,421个位点。这些目录显著超过了现有的UCSC TR注释,因为它们包含了更多较短且不纯的TRs。值得注意的是,约46%的位点位于基因或启动子区域(定义为基因上游1-1000 bp),其中大多数(约90%)位于内含子中。
研究发现,36.7%的STRs在跨样本中表现出大小多态性。特别值得注意的是,位于亚端粒区域(染色体臂末端5 Mb内)的TRs显示出比区域外TRs更高的尺寸变异性。在编码序列(Coding Sequences, CDS)中的56,721个TR位点中,28.2%具有至少一个与其他等位基因重复数不同的等位基因。研究人员通过体外翻译验证了这些编码TRs的准确组装,结果显示93.2%的等位基因产生了完整的翻译。
研究还深入探讨了TRs的基序异质性。在14.4%的STRs中,同一基因座在不同样本中检测到多个不同的基序序列。研究人员发现了七个基因座,其中不同基序的等位基因在尺寸分布上存在统计学显著差异。这一发现具有重要意义,因为已有研究表明,疾病相关STRs中的非参考基序与扩展尺寸和致病性相关。
为了评估TR基因型在群体遗传学中的应用价值,研究人员使用782个具有高度多态性的TR位点进行了主成分分析(Principal Component Analysis, PCA)。结果显示,TR基因型能够有效区分不同祖先群体,其模式与使用单核苷酸变异(Single-Nucleotide Variants, SNVs)得到的结果相似,证明了TRs在群体遗传学研究中的实用性。
该研究开发的TR目录为识别新的疾病相关TR基因座提供了重要资源,并可能帮助解释部分未确诊罕见病和复杂疾病患者中的缺失遗传力。研究人员还开发了straglr_compare.py软件工具,便于将患者中的潜在致病性TR扩展与正常多态性进行比对。
值得注意的是,研究发现的许多高度多态性编码基因座与已知的重复扩展疾病相关,如AR、ATN1、ATXN1、ATXN2、CACNA1A、HTT、TBP和THAP11等基因中的TRs。此外,研究还鉴定出了一些在参考基因组中未捕获的大型TR等位基因,其中87个基因座的等位基因比GRCh38和T2T-CHM13参考基因组大至少10 kb。
这项发表在《Nature Communications》上的研究代表了人类基因组TRs全面表征的重要里程碑。通过结合长读长测序技术和创新的生物信息学方法,研究人员成功构建了迄今为止最全面的TR目录,为理解TRs在人类健康和疾病中的作用提供了宝贵资源。这一资源将加速新疾病相关TR基因座的发现,并促进对TR相关疾病机制的深入理解,最终推动精准医疗的发展。
打赏