1. 引言
斑海豹(Phoca largha)是一种分布于西北太平洋的冰缘鳍足类动物,其繁殖与育幼依赖季节性海冰,因而对气候驱动的海冰减少及人为干扰极为敏感,成为海洋生态系统环境变化的保护相关性哨兵物种。除生态重要性外,斑海豹及其他鳍足类为解析对冷水与水环境适应的遗传基础提供了信息丰富的体系。此类适应涉及协调的形态与生理性状,其中表皮系统(皮肤与毛发)在绝缘、屏障完整性及抵御机械与微生物挑战中起核心作用。因此,毛发特性与皮肤生理的变异直接关系到季节性冰覆盖环境中的热平衡与栖息地利用,理解其基因组基础可为进化与保护研究提供依据。
高质量的参考基因组与全面注释对于解析性状相关位点的组织、调控与进化至关重要,尤其是在富含重复序列和结构复杂的区域,这些区域常包含调控元件、片段重复和快速进化的基因家族。尽管已有斑海豹染色体级别组装的报道(2.41 Gb,支架N50=179.7 Mb),但在结构连续性与端粒完整性方面仍有提升空间。近期,超长读长测序与组装算法的发展使得端粒到端粒(T2T)基因组组装成为可能,可提供无间隙染色体并大幅提升重复DNA与长程基因组架构的分辨率。这类组装的比较基因组学,包括基因家族组织、结构进化及与环境适应相关的调控景观的稳健推断。本研究利用多平台测序数据报道了斑海豹的near-T2T基因组组装,并进一步利用该组装与注释进行鳍足类与陆生食肉动物的比较基因组学、系统发育基因组学及基因家族分析,重点研究与毛发和皮肤生物学相关的表皮基因家族。该资源为未来鳍足类进化、寒冷适应及持续环境变化下的保护研究建立了染色体完整的基因组框架。
2. 结果与讨论
2.1. 基因组测序与T2T组装
研究共生成266.78 Gb的DNBSEQ短读长用于基因组调查分析与后续组装质量评估。基于17-mer分析,基因组大小估计为2.43 Gb,杂合度为0.30%,重复序列含量为56.86%,与大型且富含重复的基因组一致。为生成高连续性组装并实现染色体级别支架构建,还产生了98.71 Gb的PacBio HiFi、112.05 Gb的超长ONT及262.86 Gb的Hi-C测序数据。
基于HiFi的从头组装产生了2.40 Gb的草图,包含69个重叠群(重叠群N50=84.60 Mb,重叠群N90=29.46 Mb)。随后利用Hi-C数据将这些重叠群支架构建为染色体级别序列(支架N50=157.21 Mb),99.17%的组装序列被锚定。支架构建后,剩余572个未定位序列(总长=20.10 Mb)。利用超长ONT读长进行重叠群延伸与缺口填充,最终产生了一个2.39 Gb的无间隙组装,包含16条染色体长度的重叠群,重叠群N50与支架N50均达到184.39 Mb。16条染色体长度序列的恢复与斑海豹已报道的二倍体核型(2n=32)一致,从而证实了先前的细胞遗传学观察。
先前斑海豹的组装存在若干局限,包括较高的支架碎片化(多达249,399个支架)、较低的支架N50值(59.25–142.10 Mb)、不完整的染色体级别锚定及较低的BUSCO完整性(89.0–95.0%)。此外,重复序列含量估计在早期版本间差异显著,表明重复序列解析不完全或不一致。这些特征表明先前组装的连续性与基因内容完整性均较低。
2.2. 斑海豹基因组组装的质量评估
通过多种互补指标评估了斑海豹组装的整体质量与完整性。DNBSEQ短读长、PacBio HiFi读长和ONT超长读长的比对率分别达到99.99%、100.00%和99.95%,基因组覆盖度超过99.50%。Merqury k-mer分析得出的一致性QV分数为53.77(DNBSEQ)和55.82(PacBio),支持高一致性准确性。BUSCO分析(v5.7.1;使用carnivora_odb12数据集)恢复了99.34%的完整基因。Hi-C接触图在所有16条染色体上显示出强烈的染色体级别互作信号与清晰的对角线,与准确的支架构建一致。结合端粒重复序列分析,这些结果支持了一个染色体级别、近乎无间隙、具有高连续性、准确性与完整性的基因组组装。
为评估染色体完整性,在染色体末端调查了经典端粒重复序列(TTAGGG/CCCTAA)。在32个染色体末端中的29个检测到端粒阵列(4-2907个重复单元),而在chr4和chr10的5′端及chr16的3′端未识别到经典阵列。在这些末端未检测到经典重复序列可能反映了端粒重复结构中的生物变异或组装高度重复末端序列的局限性。基于TRF识别的大量串联重复阵列的分布推定了着丝粒区域。每条染色体上检测到一个主要的着丝粒区域,长度范围从146,815 bp(chr12)到30,065,961 bp(chr8)。这些区域富含成簇的串联重复单元,主要位于染色体内部位置,除了chr6,其重复阵列位于染色体末端附近。
重要的是,超长ONT读长(最大长度=724 kb;长度≥100 kb读长的N50=125 kb)提供了约10×的基因组覆盖度,并支持跨高度重复区域(包括端粒和着丝粒重复阵列)的序列连续性。总体而言,这些结果表明该组装对大多数染色体接近端粒到端粒构型,并代表了由跨重复区域的超长读长连续性支持的高质量、near-T2T组装。
2.3. 基因注释
斑海豹基因组包含约955.49 Mb的重复序列,占总组装的39.91%。在这些元件中,长散布核元件(LINEs)最为丰富(27.76%),其次是长末端重复序列(LTRs,5.79%)和DNA转座子(3.84%)。此外,分析在斑海豹基因组中识别出总计1,611,509个SSR位点,对应密度约为每Mb 673个SSR。其中,单核苷酸重复最为丰富,占所有SSR的58.97%,其次是二核苷酸重复(31.27%)。三核苷酸、四核苷酸、五核苷酸和六核苷酸重复分别占3.36%、5.53%、0.68%和0.21%。此外,280,887个SSR(17.43%)被识别为复合微卫星。
在重复屏蔽的组装上进行了基因预测与功能注释,得到了20,037个高置信度蛋白编码基因,其中99.42%通过同源性和基于结构域的搜索得到功能注释。斑海豹组装中预测的基因模型在基因长度、编码序列长度、外显子长度和内含子长度上与其他五个密切相关的物种表现出相似的分布模式,基因结构无明显偏移。此外,识别出42,205个非编码RNA(ncRNA)基因,包括821个microRNA(miRNA)、698个转运RNA(tRNA)、416个核糖体RNA(rRNA)和2638个小核RNA(snRNA)。其中,snRNA构成最丰富的类别。
2.4. 斑海豹与其他食肉动物的基因组比较
在20个食肉动物基因组(包括11个鳍足类、8个陆生食肉动物,以及作为外群的C. lupus baileyi)中进行了基因组比较。OrthoFinder聚类识别出所有物种共享的13,256个直系同源群,从中选出9130个单拷贝直系同源物进行系统发育分析。斑海豹中98.61%(19,758个基因)的预测基因被分配到17,967个基因家族,平均每个家族1.1个基因,表明是哺乳动物核心基因组典型的高度保守的基因库。仅33个基因,分布在九个基因家族中,是物种特异的,表明谱系特异性基因产生有限。得到的最大似然拓扑结构与先前基于核与线粒体数据的重建大体一致,为推断的关系提供了全基因组支持。斑海豹被解析为与斑海豹(Phoca vitulina)为姐妹群,估计分歧时间约为2.1 Ma。分子测年将斑海豹与斑海豹的分歧置于晚上新世至早更新世(约2.1 Ma),这是一个以北半球显著气候振荡和冰川扩张为特征的时期。尽管无法推断直接因果关系,但此时间框架与气候和地理变化促进海豹科内谱系多样化的情景大体一致。
在斑海豹与两个代表性鳍足类(Z. californianus和N. schauinslandi)之间进行了全基因组同线性分析,以评估染色体保守性与大规模结构进化。在斑海豹自身比较中检测到394个同线性块,而在种间比较中分别恢复了325和301个块。种间块每块包含更多的同线性基因对(平均=61–65)而自身比较中检测到的块(平均=8),与在种间比较中恢复的大共线性片段一致。中位块长度进一步支持了广泛保守的大尺度同线性,同时也表明了一定程度的谱系特异性重组。总体而言,这些结果表明斑海豹的染色体架构相对于其他鳍足类基本保守,结构分歧集中在一部分基因组区域。值得注意的是,有限的物种特异性基因数量与保守基因家族的主导地位表明,斑海豹的谱系特异性进化变化更可能涉及现有基因家族内的拷贝数变异和序列水平修饰,而非广泛的新基因产生。
研究推断了基因家族的扩张与收缩。在斑海豹谱系上,识别出212个扩张和486个收缩的基因家族,其中149个家族(612个基因)和228个家族(247个基因)分别显著扩张和收缩。来自显著扩张家族的基因的GO富集强调了与表皮和细胞外基质过程相关的术语,包括角化(GO:0031424)、角蛋白丝(GO:0045095)、中间丝组织(GO:0045109)和细胞外基质组织(GO:0030198)。KEGG富集进一步表明这些扩张家族基因在与上皮完整性和组织重塑相关的通路中过度代表,包括紧密连接(ko04530)、细胞粘附分子(ko04514)、PI3K-Akt信号通路(ko04151)和Wnt信号通路(ko04310)。总之,这些富集与涉及上皮屏障功能和细胞外组织的基因集的谱系特异性拷贝数变化一致。
同时,在斑海豹谱系上识别出474个正选择基因(PSGs)。PSGs的GO富集包括与表皮结构及相关功能相关的术语(例如GO:0031424和GO:0045095)。此外,PSGs的KEGG富集恢复了与上皮组织和信号传导相关的通路(例如ko04530、ko04514和ko04151)。总之,这些结果表明在拷贝数更替水平(基因家族扩张/收缩)和序列水平(正选择)上的协调进化变化,可能涉及斑海豹中与表皮结构和上皮功能相关的基因集。跨分析相似富集模式的重叠可能表明表皮相关基因网络内的多水平进化调控。
鉴于皮肤和毛发相关功能反复富集,后续分析聚焦于两个在表皮结构与重塑中具有明确作用的代表性基因家族——角蛋白(KRTs)和基质金属蛋白酶(MMPs),以表征其在斑海豹中的进化动态、基因组组织和谱系特异性特征。在角蛋白家族内,观察到基因长度和预测的理化性质变异,表明旁系同源物间的功能多样化。这种多样性可能有助于角化组织内的结构异质性,尽管直接功能后果尚待确定。相比之下,MMP基因家族表现出相对保守的基因数量和结构特征,与细胞外基质重塑酶的功能约束一致。因此,该家族内的正选择信号可能反映了酶学或调控特性的精细调整,而非大规模的基因扩张。
2.5. KRT和MMP基因家族分析
在20个食肉动物基因组中,识别出916个KRT基因和406个MMP基因。在斑海豹中,恢复了48个KRTs(33个I型和15个II型),而MMP库包含20个成员,并强烈富集带血凝蛋白结构域(WithHemopexin)成员(18/20),仅检测到两个不带血凝蛋白结构域(WithoutHemopexin)的基因。KRTs明显多于MMPs,与角蛋白家族相对于通常较小、功能特化的MMP家族的大型、结构分区的性质一致。
系统发育推断表明,斑海豹KRTs主要分为经典的I型和II型组,并与其他食肉动物的直系同源物交错分布,支持了主要KRT谱系在食肉目中的保守性。基序模式在主要进化支内大体相似,与中间丝组装共享的需求一致,但进化支间在基序存在和排列上存在明显差异,表明多样化集中在可变的头/尾区域而非丝状形成的骨干。值得注意的是,基序1在拷贝数和位置上显示出进化支依赖性变异;仅N末端实例与Keratin_2_head区域重合,而C末端出现位于该结构域外,表明基序使用的位置异质性。几个I型KRT谱系形成了缺乏基序7的独特进化支,而包含I型和II型成员的混合进化支以及几个次要亚支通常保留了基序7,与亚家族特异性约束以及非核心元件的谱系依赖性更