综述:重新审视植物基因组中的串联重复现象:技术挑战与泛基因组解决方案

时间:2026年4月26日
来源:Current Opinion in Physiology

编辑推荐:

植物基因组中串联阵列(tandem arrays)的短读组装易导致结构坍塌和基因计数偏差,影响表达分析和CNV检测。长读全基因组图谱通过保留多成员坐标和相位信息,解决组装压缩问题,为剂量平衡、亚功能化及新功能化研究提供基础,并揭示串联阵列在适应性进化中的关键作用。

广告
   X   

Sung Don Lim | John C. Cushman | Won Cheol Yim
分子植物生理学实验室,应用植物科学系,尚志大学研究生院,Wonju,26339,韩国
串联阵列是由具有高度序列同源性的相邻旁系基因组成的基因组位点,它们主要集中在植物基因组中受到强烈适应性压力影响的区域,从核苷酸结合亮氨酸富集重复序列(NLR)抗性簇到专门的代谢位点。然而,这些具有生物学信息价值的区域在生物信息学处理上却存在问题。短读长序列组装常常导致组装失败,将多个串联阵列成员压缩成一个单一的共识序列。注释流程通过注释融合(将不同的阵列成员合并成延长的基因模型)和注释遗漏(即使在组装保留了局部结构的情况下也忽略真实的阵列成员)进一步加剧了这一错误。其结果是系统性的扭曲:压缩后的参考数据错误地表示了串联阵列的拷贝数,混淆了阵列成员之间的表达量化,并掩盖了群体基因组分析中的串联阵列拷贝数变异(CNV)。基于长读长序列、单倍型解析的组装构建的图谱泛基因组提供了一个直接的解决方案。通过将不同的位点结构表示为泛基因组图谱中的路径,这些参考数据使串联阵列重新成为可发现和可测量的对象。各个阵列成员保留了独特的坐标,从而能够进行阵列成员级别的表达分析并准确地对串联阵列的CNV进行基因分型。这一转变将富含串联阵列的位点从系统性的盲点转变为可观察的适应性基因组进化窗口。

引言

植物基因组在功能类别中反复构建串联阵列,在这些类别中,局部拷贝数可以作为适应性的调节因素。NLR抗性位点是一个典型的例子,其中聚集的旁系基因在病原体压力下提供了快速重塑识别特异性的基础[1,2]。除了免疫功能外,串联阵列中的基因还富含环境响应和专门化的代谢功能,这与一个更广泛的模式一致,即选择可以在紧凑的邻域内反复调整剂量并多样化功能[3,4]。
这里的“串联重复”指的是产生相邻基因级旁系基因的局部事件,最终形成的位点是一个串联基因阵列[4]。通过自BLAST分析CDS特征来识别这些阵列,要求每个基因的覆盖率达到70%或以上,并允许最多有10个间隔基因,每个阵列至少有一对严格相邻的基因;仅符合1-10个间隔基因条件的配对被单独报告为近端重复[5, ∗∗6, 7]。超过200 kb的阵列被标记为可能过度合并的[8]。这一定义排除了序列级别的重复序列(微卫星、短串联重复序列);“富含串联阵列”的邻域指的是包含三个或更多基因成员的区域,因为在整个基因组中主要是两个成员的阵列[5]。这些区别很重要,因为压缩或融合的串联阵列会以序列级别重复错误所没有的方式破坏基因计数、表达量化和进化推断。补充表S1总结了植物基因组中与串联阵列相关的适应性功能的代表性例子。
我们强调了植物基因组中两种常见的故障模式。首先,短读长序列数据通常无法区分高同源性阵列成员,因为许多片段与多个拷贝对齐得同样好,导致可用于唯一定位的拷贝特异性锚点太少。结果,组装图被简化为单一的共识表示,系统性地低估了拷贝数并掩盖了旁系基因特有的序列和调控变异[9,10]。这些区域特别容易发生参考压缩[9,11]。复杂抗性位点的位点级长读长序列组装展示了当短读长序列参考数据压缩这些变异时所丢失的信息,包括额外的阵列成员和标准坐标中缺失的结构等位基因[12]。其次,参考压缩会向下传播。在RNA-seq中,来自多个阵列成员的多重映射读长序列可能被强制映射到一个模型上、被丢弃,或者根据启发式规则进行分配,每种方法都会引入偏差[13]。对于串联阵列来说,有三个效应尤其相关:当读长序列在成员之间汇总时,表观表达量被夸大,真正的旁系基因特异性调控消失,当个体间的串联阵列CNV存在差异时,样本间的方差被夸大,因为读长序列被投影到一个单一的参考坐标上。
即使结构正确的组装也无法完全解决问题,因为注释增加了另一层不确定性。密集的旁系基因邻域使得证据整合、边界选择和冗余过滤变得困难,导致模型融合、阵列成员被遗漏或注释之间的基因结构不一致[14,15]。这些结果对于最近的串联重复事件尤其具有破坏性,因为在这些事件中,生物学意义上的信号正是多个相似拷贝的存在[4]。
这些观察结果引出了三个指导性问题:串联阵列遵循哪些进化轨迹?为什么它们会集中在特定的功能类别中?哪些技术步骤最常导致阵列成员的丢失或被抹去?以及如何利用基于长读长序列的组装构建的泛基因组来保留阵列成员级别的坐标,从而使剂量、表达分配和串联阵列CNV能够直接测量[16,17]?

进化轨迹:剂量变化、亚功能化、新功能化

一旦发生重复,通常会遵循三种轨迹之一:剂量保持,即多个拷贝共同维持总输出;亚功能化,即祖先功能在拷贝之间分配;或新功能化,即一个拷贝获得新的上下文或活性[18,19]。当在组织和条件下在阵列成员级别解析表达时,这些结果就可以进行测试(图1)。在基因平衡的情况下,预期会出现剂量保持的情况。

高同源性串联阵列的组装失败

当相邻的旁系基因在基因体的大部分区域具有超过95%的核苷酸同源性时,短读长序列组装最容易失败。在这种情况下,许多片段与多个阵列成员对齐得同样好,基于图的组装会将不同的路径简化为单一的共识,通常伴随着局部覆盖率的升高(图2A)[11]。结果是阵列大小和旁系基因特异性等位基因的完全丢失,而不仅仅是一个小的修饰错误。抗性位点就是一个典型的例子。

表达量化错误

当串联阵列被压缩或合并时,RNA-seq的量化结果会发生变化:许多读长序列与多个拷贝对齐得同样好,使得参考模型和多重映射策略成为测量的一部分[13,58]。如果多个旁系基因被报告为一个位点,那么表达量就是整个阵列的平均值,即使调控分布在不同的转录单元中。
串联阵列的CNV通过将剂量和调控混淆而加剧了这个问题。拷贝数的差异可能会

长读长序列组装策略

PacBio HiFi和Oxford Nanopore的长读长序列技术可以覆盖几千碱基对串联重复的基因拷贝及其独特的侧翼序列,这是实现拷贝级重建的关键前提。像hifiasm这样的单倍型感知组装器可以直接从HiFi读长序列中保留单倍型结构,并输出保留了串联阵列大小和组织真实单倍型差异的分阶段组装[67]。在多倍体环境中,三联分组可以用于分割读长序列

未来方向:分阶段程序

泛基因组在概念上非常适合富含串联阵列的位点,因为它们编码了多种结构,而不是强制使用单一的坐标系统。然而,对于许多植物基因组来说,泛基因组尚未成为常规工具,因为多倍性和庞大的基因组规模给相位分析、图谱构建和群体规模基因分型带来了实际挑战[85]。
已经可以实现关注CNV易发家族的单倍型解析长读长序列组装,并且应该成为标准方法

资助

这项工作得到了美国国家科学基金会植物基因组研究计划(奖项编号#1547713和#2042253)、美国农业部可持续生物能源和生物产品挑战领域(奖项编号#2018-68005-27924)对WCY和JCC的支持,以及美国国家食品和农业研究所(奖项编号#2021-67013-34009)对WCY的支持。这项研究还得到了通过江原RISE中心实施的区域创新系统与教育(RISE)计划的支持,该计划由教育部资助

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

生物通微信公众号
微信
新浪微博


生物通 版权所有