从大规模Y染色体序列揭示新石器时代中国农民向东南亚的多次南迁事件

时间:2026年2月20日
来源:SCIENCE ADVANCES

编辑推荐:

本期推荐:为揭示中国古代粟作和稻作农民对东南亚人群遗传贡献的规模与时间,研究人员开展了基于大规模Y染色体测序的谱系地理研究。通过整合1507个高覆盖度Y染色体序列及2528份古今样本数据,他们构建了高分辨率时间标定的Y染色体谱系,解析了与华南新石器文化创新相关的多次男性偏向性扩张事件,并追踪了与苗瑶、侗台等语系人群相关的奠基谱系,揭示了新石器时代农民南下对东南亚父系遗传景观的持久塑造作用。

广告
   X   

在东亚与东南亚的交汇处,华南地区一直扮演着连接南北的关键走廊角色,这里不仅是现代解剖学意义上人类早期扩散的枢纽,更是水稻驯化与南方农耕文明的摇篮。然而,热带、亚热带地区炎热潮湿的气候严重限制了古代DNA的保存与获取,使得我们对这一关键区域长期、深层次的人口历史过程认识存在显著缺口。特别是,从父系遗传角度,中国古代粟作与稻作农民对东南亚人群的遗传贡献规模、时间线以及具体的人口动力学模式,仍有许多未解之谜。为了填补这一空白,一项发表在《SCIENCE ADVANCES》上的研究应运而生,它通过迄今最大规模的中国Y染色体变异数据集,为我们揭开了新石器时代农民多次南下的神秘面纱。
研究人员为开展此项研究,主要运用了以下几个关键技术方法:首先,他们从中国53个民族语言和地理多样性人群中采集样本,利用DNBSEQ-T7平台进行了Y染色体靶向测序,获得了463个高覆盖度Y染色体序列,并整合了已发表的1044个序列、1748个东南亚低覆盖度序列以及780个来自欧亚大陆东部的古代基因组数据,构建了包含1507个个体的核心数据集。其次,他们采用了严格的生物信息学流程进行数据质控、比对和变异检测。再者,研究运用了最大似然法(RAxML-NG)和贝叶斯方法(BEAST)构建高分辨率、时间标定的系统发育树,以解析谱系关系和推断分化时间。此外,还通过贝叶斯天际线图(BSP)分析了关键单倍群的有效种群大小变化历史,并通过空间统计分析、单倍型共享分析和网络分析等手段,探究了谱系的地理分布与人群间的遗传联系。
研究结果
华南与东南亚地区父系谱系的多次多样化与扩张事件
为探究由中国向东南亚多次南迁塑造的父系遗传景观,研究团队生成了来自华南53个群体的463个高覆盖度Y染色体序列。通过整合多个数据集,分析显示东亚人群的父系遗传多样性高于东南亚人群。 neutrality 检验表明,除东亚南亚语系人群外,大多数语言多样性人群经历了近期由迁移驱动的扩张。值得注意的是,东南亚部分侗台语人群显示出比东亚同类人群更高的多样性,这可能反映了来自东亚的多波迁移以及与当地人群的混合。在新测序个体中,O2a、O1b和O1a单倍群占主导,这些谱系在苗瑶和侗台语人群中尤为突出,凸显了它们在父系谱系南向扩散中的核心作用。
通过对古今个体Y染色体系统发育树的高分辨率分析,研究揭示了东亚和东南亚详细的父系遗传图谱。O1和O2是两个主导谱系。O1a谱系广泛分布于中国西南和沿海地区,与百越、良渚文化紧密相关,并在侗台、苗瑶和藏缅人群中均有出现。古代证据将O1a与粟作和稻作农业早期发展相关的人群联系起来。O1b1a谱系地理和民族语言分布更广,主要见于华南和东南亚的侗台、南亚和藏缅人群中。O2谱系中的O2a2a1a2亚支在汉族和苗瑶人群中频率较高,其中O2a2a1a2-M7在广西独山的古代个体中可追溯到约8707年前,是该父系分支最早记录之一。O2a2b在侗台和藏缅人群中常见,其衍生支系O2a2b1a1a1a4a在现代藏缅人群中频率很高。
通过整合古代和现代基因组数据,研究证明了多个语言各异的东亚人群共同贡献了东南亚人群的父系血统,具有复杂的多源性。特别是,在长江中游大溪文化中发现的O2a2a1a2-M7单倍群,在现代苗瑶、南方汉族以及东亚和东南亚的侗台语人群中占主导。研究还发现,通常与古代东北亚人和现代藏缅或汉语人群相关的N和D单倍群的上游分支也出现在东南亚古代基因组中,支持了北部汉藏语人群对东南亚父系基因库的影响。与南岛语相关的单倍群O2a2b2-N6在大汶口和昙石山古代个体中均有发现,在现代南岛语人群中普遍存在,表明中国新石器时代南北农民与当代东南亚南岛语群体之间存在直接遗传联系。O1a相关谱系在侗台语人群中广泛分布,反映了农业时期侗台语人群向东南亚大陆的扩张。
欧亚大陆东部父系遗传遗产与南向新石器农业扩张相吻合
为了更好地阐明东亚祖先人群的扩张及其对华南和东南亚稻作社区形成的时间贡献,研究人员基于衍生变异的积累速率重建了五个时间标定的Y染色体系统发育树。这些包括迄今最全面的东亚系统发育树。BEAST推导的系统发育拓扑结构和推断的扩张事件与之前基于最大似然法的重建结果高度一致。值得注意的是,在新报告的數據集中,研究检测到单倍群O1a-M119、O1b1a1a-M95、O2a2a1a2a1-F1276和O2a2b1a1a1-CTS4111的扩张信号。所有这些主要扩张都可以追溯到新石器时代转型的开始,并在新石器时代中晚期加剧,对侗台、苗瑶和汉藏等语言多样性群体的父系谱系做出了实质性贡献。
为了阐明关键主导Y染色体单倍群的种群历史,研究构建了贝叶斯天际线图。单倍群O2a2a1a2-M7在大约4500年前开始显著的人口扩张,在3500年前左右达到顶峰,这一时期与从新石器时代晚期到青铜时代早期的过渡期吻合。之后该谱系经历了一个明显的瓶颈期。相比之下,单倍群O2a2b1a1a1a4-Z25921和O1b1a1a1b-F789分别在大约10000和13000年前开始持续扩张。单倍群O1b1a1a1a-F1252在3000至2000年前之间显著扩张,而主要沿海分布的O1a-M119在4100至3000年前之间经历了初期人口扩张。
研究进一步通过来自华西生物样本库的36871个微阵列基因型,分析了关键Y染色体单倍群在中国和东南亚的地理分布。皮尔逊相关性分析显示,这些关键单倍群与纬度呈显著负相关,表明存在明显的北向南梯度。单倍群O2a2a1a2-M7、O2a2b1a1a1a4-Z25921、O1a-M119、O1b1a1a1a-F1252和O1b1a1a1b-F789主要聚集在华南和东南亚。这种模式揭示了强烈的空间关联性,表明这些父系谱系极大地塑造了该地区早期人群的遗传结构。研究还统计估计了高分辨率Y染色体系统发育树中节点出现和谱系积累的速率。谱系积累速率在末次盛冰期前后较低,但在大约4000年前的青铜时代急剧上升。研究发现在3500至4000年前之间有约230个谱系出现,表明早期中华文明的崛起及相关文化创新导致了显著的人口增长。
为了阐明东南亚人群与不同民族语言的中国人群之间的遗传关系,包括他们与不同地理来源的古代人群的联系,研究分析了群体水平的单倍群共享模式,并重建了关键奠基谱系的网络分析。单倍群共享模式揭示了东亚和东南亚人群之间显著的人群分层。在第二和第三级单倍群分辨率上出现了精细的亚结构,反映了民族语言和地理分化。值得注意的是,来自东亚和东南亚的侗台、苗瑶和某些藏缅语人群形成了独特的遗传簇,凸显了它们更紧密的遗传关系和各自语系内可能的共享血统。网络分析进一步识别了与O1a、O1b1a1a1a1a1a、O1b1a1a1a1b、O1b1a1a1b、O2a2a和O2a2b1a1等多个谱系相关的扩张事件。谱系O1a1a2a1a3呈现出层次化的网络结构:来自东亚的侗台语人群聚集在上游谱系O1a1a2a附近,而来自东南亚的侗台语人群则位于更衍生的分支上,暗示了从华南向东南亚的南迁轨迹。类似地,单倍群O2a2a1a2a1a1a2a1a1a1呈现出几乎完全由苗瑶语人群组成的“年轮”模式,反映了从东亚到东南亚的遗传连续性。
通过整合深时父系遗传重建与最新的考古学、语言学和古DNA证据,研究揭示了东亚与东南亚交汇处精细且复杂的人口历史。研究结果支持了至少五次不同的南迁波次的存在,对应于东亚南部和东南亚人类形成的“两层模型”中的第二层,主要由中国稻作和粟作人群的扩张驱动。其中,最早的一波与南亚语系的扩散一致,随后的两波与南岛语和侗台语群体的扩散相关,而最近的迁移则与苗瑶语和汉藏语人群的扩张有关。
研究结论与讨论
这项研究通过整合来自38378名无关中国个体的大规模Y染色体测序和基因分型数据、1748个东南亚低覆盖度基因组以及780个来自欧亚大陆东部的古代Y染色体序列,提供了华南和东南亚父系遗传结构和人口历史的详细视图。综合系统发育分析揭示了中国新石器农业扩张背景下,人类向东南亚迁移的多波次浪潮。这些发现与先前的常染色体和线粒体DNA研究一致,但提供了父系视角的补充证据,并在分化与扩张时间、方向性以及文化驱动力(特别是农业创新和语言多样化)方面提供了更高的分辨率。
高分辨率Y染色体系统发育树精炼了“两层模型”,明确了关键的父系谱系O1a、O1b和O2a2a1a2,它们将东亚古代粟作和稻作人群与当今东南亚人群联系起来。虽然先前的常染色体分析揭示了古代人群的双重血统成分,但Y染色体数据揭示了这些古代农民与东南亚现代侗台、苗瑶和南亚语人群之间直接的父系连续性,表明来自中国的显著父系基因流动。相比之下,来自云南和长江流域的古代线粒体DNA显示出母系连续性和有限的女性介导的基因流动,支持了性别偏向性迁移模型。
关键父系单倍群与民族语言归属之间的强对应关系,为南岛语、南亚语、侗台语、汉藏语和苗瑶语等语系扩散的人口机制提供了令人信服的遗传证据。研究结果表明,侗台人群主要携带O1a和O1b谱系,苗瑶人群富含O2a2a1a2及其亚支,南亚语人群则常携带O1b1a1a1a和O1b1a1a1b谱系,南岛语相关谱系则支持了从华南沿海出发的新石器时代航海扩张模型。此外,在古代华南个体中检测到的古代东北亚谱系,支持了与藏缅语相关的南向迁移假说。
本研究的一个关键发现是,主要Y染色体单倍群的扩张时间与粟作和稻作农业的出现相吻合。时间标定的Y染色体系统发育树和古今基因组的综合分析表明,主要扩张,特别是O2a2a1a2-M7、O1a-M119和O1b1a1a1b,发生在大约4000至3500年前。这一时期与长江中下游地区农业活动的强化、社会分层以及早期国家的出现相吻合。地理分析显示单倍群频率随纬度升高而降低,支持了人口从东北亚向南迁移的定向模型。东南亚人群,特别是侗台和苗瑶语人群基因组多样性的增加,可归因于农业扩张过程中的系列奠基者效应、本地混合和生态适应。
总之,本研究通过整合来自不同民族语言的现代群体的高分辨率Y染色体数据和可追溯到全新世的古代基因组,重建了华南和东南亚的父系人口历史。由此产生的系统发育树和人口模型表明,父系谱系的扩张与农业的发展、社会复杂性的兴起以及欧亚大陆东部早期国家的出现相吻合。来自东亚的多波次男性主导的迁移,主要与新石器时代转型相关,塑造了东南亚的父系遗传景观。O1a、O1b和O2a2a1a2等谱系在当今侗台、苗瑶、南亚和南岛语人群的形成中扮演了核心角色,其祖先根源可追溯至长江和黄河流域。这些迁移是结构化且反复发生的,而非均一的。谱系地理学和基于网络的分析揭示了早期东亚农民与现代东南亚群体之间持久的父系联系,强调了遗传连续性而非替代。这些发现共同挑战了过度简化的人口替代模型,转而支持一个以分层迁移、混合和文化转化为特征的复杂人口历史。

生物通微信公众号
微信
新浪微博


生物通 版权所有