大规模基因组学揭示藏鸡高海拔适应的三源血统与分层适应

时间:2026年5月15日
来源:Advanced Science

编辑推荐:

藏鸡对缺氧的青藏高原表现出适应性状,然而不同的祖先输入、它们的时间及功能后果如何共同塑造这种适应,目前仍知之甚少。为解决此问题,研究人员在1054个全基因组中整合了混合模型与祖先片段长度测年,解析出三个不同的祖先来源——中国西北、四川-云南毗邻区和南喜马拉雅山

广告
   X   

藏鸡对缺氧的青藏高原表现出适应性状,然而不同的祖先输入、它们的时间及功能后果如何共同塑造这种适应,目前仍知之甚少。为解决此问题,研究人员在1054个全基因组中整合了混合模型与祖先片段长度测年,解析出三个不同的祖先来源——中国西北、四川-云南毗邻区和南喜马拉雅山麓,其贡献是时间分层的:西北来源形成了最深的奠基层(>928代),南喜马拉雅山麓记录了一个古老但低强度的信号(~928代;95% 置信区间:875–1024),而四川-云南毗邻区则反映了一次主要的近期扩张(~514代;95% 置信区间:493–541),并在高原上呈阶梯式扩散。相对于人口统计零模型校准的选择扫描表明,这些来源富集了不同的功能类别:西北来源富集于血管稳态和凝血,四川-云南毗邻区富集于钙信号和代谢调节,而南喜马拉雅山麓则富集于肺血管重塑。这些发现表明,藏鸡的高海拔适应涉及来自多个祖先来源的时间分层贡献,每一个都与不同的候选功能通路相关——这种模式与人类介导的扩散塑造高原种群遗传结构相一致。
藏鸡是研究动物在高海拔极端环境下适应性进化的一个理想模型。青藏高原的低氧、强紫外辐射和昼夜温差大等恶劣环境对生物构成了持续的强大选择压力。与野生或半野生物种主要受自然选择塑造不同,驯化物种的基因组同时印记着人类介导的基因流和人工选择,这引发了家养物种的高海拔适应遗传结构是否以及如何被驯化所重塑的问题。以往关于藏鸡高原适应的研究多将其视为同质群体进行比较,缺乏对藏鸡遗传结构内部祖先来源及其历史贡献层次、地理扩散路径以及各来源对适应性状功能贡献的系统解析,因此需要一个连接“谁”(来源与路径)、“何时”(时间分层)和“如何”(功能映射)的整合框架。
为了解决上述问题,并超越先前研究的单方法、单时间尺度方法,研究人员在本研究中整合了多种互补的分析方法,包括混合建模、本地祖先推断、空间基因流估计和选择扫描。研究旨在:(1) 解析藏鸡的祖先来源数量与身份;(2) 确定其贡献的时间层次;(3) 评估每个来源是否与不同的适应功能相关联。此项研究为理解一个由环境压力和人类介导扩散共同塑造的家养物种如何“组装”其在世界最高高原上生存的遗传结构提供了一个更为整合的视角。
研究基于对1054只鸡(包括322只藏鸡,来自11个群体)的全基因组测序数据展开。样本覆盖了青藏高原及其周边地理区块,确保了数据的广泛代表性。核心分析采用了主成分分析、ADMIXTURE模型、f-统计量、qpWave/qpAdm/qpGraph建模、拓扑权重、TreeMix图建模、有效迁移表面估计、D-统计量、本地祖先推断、片段长度测年、运行纯合性分析、基于模拟的零模型校准选择扫描、通路富集分析和祖先分层富集检验等关键技术方法,构建了一个多层次验证的分析框架。
2.1 采样设计与群体遗传结构
对1054只鸡的基因组数据分析揭示了藏鸡群体的遗传多样性。主成分分析、最大似然系统发育和F-分支分析均一致表明,藏鸡内部存在两个主要的遗传谱系分化。这两个谱系与其地理分布相对应:一个与四川-云南毗邻区谱系相邻,另一个与南喜马拉雅山麓谱系邻近。ADMIXTURE分析也支持了SYA和SHF两个谱系的分裂。
2.2 藏鸡的三源混合模型
研究测试了藏鸡的祖先是否仅由SYA和SHF两个来源混合形成。结果显示f3(TIB; SYA, SHF) 统计量显著为负,拒绝了仅由SYA和SHF构成的简单树模型。主成分分析和ADMIXTURE分析均提示西北来源是一个潜在的第三祖先成分。进一步的qpWave等级检验正式评估了祖先空间的维度,结果证实了三个来源(SYA、SHF、NWC)是不可约简的祖先流,构成了三维祖先空间。所有两源混合模型都被qpAdm拒绝。qpGraph图模型搜索确定,需要三个混合事件(k=3)才能解释所有10个藏鸡亚群的数据,这支持了藏鸡的祖先源于三个来源的混合。NWC本身被建模为一个混合节点,主要接收来自SHF相关谱系,以及部分来自SYA相关或更古老谱系的贡献。地理分析显示,NWC亲和力与距甘肃-青海地区的距离呈显著负相关,呈现出一个地理梯度,表明其通过青藏走廊扩散。
2.3 基因流的地理走廊与屏障
为了解三个祖先成分之间的系统发育关系和进入高原的地理路径,研究结合了拓扑权重和图模型等方法。全基因组拓扑权重分析显示,((TIB, SYA), (SHF, NWC)) 是最主要的拓扑结构,表明TIB是SYA的姐妹群。TreeMix图模型推断出SHF→TIB的基因流。有效迁移表面分析识别出几个关键地理特征:喜马拉雅主山脊是一个低迁移区(屏障),而雅鲁藏布大峡谷是一个高迁移走廊。帕特森D统计量支持了EEMS推断的走廊模式。
2.4 本地祖先结构与混合时间测定
通过整合本地祖先推断和片段长度测年,研究人员解析了藏鸡形成的年代学和地理学。染色体“绘制”显示所有藏鸡个体呈现三阶嵌合结构:短而高度破碎的SHF片段、中度完整的NWC片段和长而连续的SYA区块,其相对比例随与各来源中心的地理距离而变化。结合多种测年方法,数据支持四个可解析的时间尺度:(1) 一个深度NWC祖先层,其建立时间早于最古老的片段长度信号(>928代);(2) 一次主要的SYA流入,发生在~514代前;(3) 一个中间交换时期,在90-262代前;(4) 一个近代的品种交换信号,在10-42代前。祖先分层ROH分析验证了该时空框架。
2.5 沿两条扩散路径的精细尺度扩散
为了表征SYA和SHF走廊沿各自路径的扩散动态,研究比较了F-分支梯度、同源一致性共享和路径锚定回归。SYA走廊表现出逐步的、种群结构化的基因流特征,混合信号通过一系列中间种群呈单调衰减,但下游种群的同源一致性共享反而升高,表明是离散的种群介导的中继。SHF走廊则表现出更平滑的扩散模式,同源一致性沿路径递减,没有SYA路径上那种尖锐的种群间不连续性,表明是更连续的扩散。
2.6 路径分层选择信号与功能富集
鉴于复杂的人口历史,研究采用了三层验证框架来识别难以用纯人口统计学解释的选择特征。首先,基于最佳脉冲模型进行中性模拟,构建了一个复合选择分数并进行零模型校准,识别出超出中性期望的候选窗口。其次,功能富集测试表明,三个祖先路径具有统计学上可区分的功能特征:NWC路径候选基因富集于血液学相关基因,SYA路径富集于器官重量/生长基因,SHF路径富集于心肌收缩基因。联合置换检验支持这种三向功能划分并非偶然。第三,运行纯合性岛屿分析与校准的复合信号交叉验证,发现了13个强选择目标,这些目标主要由NWC血统驱动,功能上涵盖了适应和生产两类性状,并在物理位置上紧密共现,提示了连锁搭车效应。最终,通过整合三层证据,研究确定了223个强候选基因组区域。此外,在群体内进行的nSL分析识别出与正在进行或软选择性扫荡相关的信号,涉及缺氧肺动脉收缩、线粒体功能和血红蛋白等通路。
在讨论部分,研究人员认为他们的分析表明,藏鸡的遗传结构源于三个不可约简的祖先来源,其贡献沿着三个互补的维度组织:血统身份、时间分层和功能划分。时间分层模型显示,NWC是一个深厚的奠基层,SYA是主要的近期流入,SHF是持续的、低强度的扩散。这种多层模型有助于解释先前关于藏鸡分类的相互矛盾的研究结果。地理扩散动力学方面,SYA走廊表现出离散的、节点结构化的基因流,而SHF走廊则表现出更平滑的、阶梯式的扩散。路径分层的选择信号和功能富集模式提示,不同的祖先来源可能贡献了互补的适应模块。研究人员讨论了该模型的替代解释和局限性,包括本地祖先推断的偏差、选择扫描方法的敏感性以及缺乏古DNA直接校准等。该研究提出的多层次验证分析框架,可应用于其他混合家畜物种。对于藏鸡的保护和育种,血统分层的候选基因列表,特别是同时包含海拔适应和生产性状基因的染色体1: 74–75.7 Mb区域,值得进一步研究。
3.6 结论
研究人员总结道,藏鸡对高原的适应并非由单一的进化轨迹塑造,而是由三个血统的时间结构化汇聚所塑造,每个血统通过地理上不同的路径并在可解析的时间尺度进入:西北来源作为一个深厚的奠基层(>928代),四川-云南毗邻区作为主要的近期流入(~514代,与茶马古道贸易时间相关),南喜马拉雅山麓作为来自南部喜马拉雅山麓的持续低强度扩散。这些血统层携带着统计学上可区分的功能候选基因集——通过西北来源的血管/凝血基因,通过四川-云南毗邻区的钙信号和代谢基因,以及通过南喜马拉雅山麓的心脏/肺部候选基因——表明该物种的高海拔适应是一种互补遗传模块的、由人类促进的复合组装,而非单一的选择性响应。本研究提出的分析框架——将正式来源识别与人口统计校准的、血统分层选择扫描相结合——为剖析其他混合家畜种群的多源适应提供了一种可复制的方法。

生物通微信公众号
微信
新浪微博


生物通 版权所有