植物基因组在功能类别中反复构建串联阵列,在这些类别中,局部拷贝数可以作为适应性的调节因素。NLR抗性位点是一个典型的例子,其中聚集的旁系基因在病原体压力下提供了快速重塑识别特异性的基础[1,2]。除了免疫功能外,串联阵列中的基因还富含环境响应和专门化的代谢功能,这与一个更广泛的模式一致,即选择可以在紧凑的邻域内反复调整剂量并多样化功能[3,4]。
这里的“串联重复”指的是产生相邻基因级旁系基因的局部事件,最终形成的位点是一个串联基因阵列[4]。通过自BLAST分析CDS特征来识别这些阵列,要求每个基因的覆盖率达到70%或以上,并允许最多有10个间隔基因,每个阵列至少有一对严格相邻的基因;仅符合1-10个间隔基因条件的配对被单独报告为近端重复[5, ∗∗6, 7]。超过200 kb的阵列被标记为可能过度合并的[8]。这一定义排除了序列级别的重复序列(微卫星、短串联重复序列);“富含串联阵列”的邻域指的是包含三个或更多基因成员的区域,因为在整个基因组中主要是两个成员的阵列[5]。这些区别很重要,因为压缩或融合的串联阵列会以序列级别重复错误所没有的方式破坏基因计数、表达量化和进化推断。补充表S1总结了植物基因组中与串联阵列相关的适应性功能的代表性例子。
我们强调了植物基因组中两种常见的故障模式。首先,短读长序列数据通常无法区分高同源性阵列成员,因为许多片段与多个拷贝对齐得同样好,导致可用于唯一定位的拷贝特异性锚点太少。结果,组装图被简化为单一的共识表示,系统性地低估了拷贝数并掩盖了旁系基因特有的序列和调控变异[9,10]。这些区域特别容易发生参考压缩[9,11]。复杂抗性位点的位点级长读长序列组装展示了当短读长序列参考数据压缩这些变异时所丢失的信息,包括额外的阵列成员和标准坐标中缺失的结构等位基因[12]。其次,参考压缩会向下传播。在RNA-seq中,来自多个阵列成员的多重映射读长序列可能被强制映射到一个模型上、被丢弃,或者根据启发式规则进行分配,每种方法都会引入偏差[13]。对于串联阵列来说,有三个效应尤其相关:当读长序列在成员之间汇总时,表观表达量被夸大,真正的旁系基因特异性调控消失,当个体间的串联阵列CNV存在差异时,样本间的方差被夸大,因为读长序列被投影到一个单一的参考坐标上。
即使结构正确的组装也无法完全解决问题,因为注释增加了另一层不确定性。密集的旁系基因邻域使得证据整合、边界选择和冗余过滤变得困难,导致模型融合、阵列成员被遗漏或注释之间的基因结构不一致[14,15]。这些结果对于最近的串联重复事件尤其具有破坏性,因为在这些事件中,生物学意义上的信号正是多个相似拷贝的存在[4]。
这些观察结果引出了三个指导性问题:串联阵列遵循哪些进化轨迹?为什么它们会集中在特定的功能类别中?哪些技术步骤最常导致阵列成员的丢失或被抹去?以及如何利用基于长读长序列的组装构建的泛基因组来保留阵列成员级别的坐标,从而使剂量、表达分配和串联阵列CNV能够直接测量[16,17]?