新冠疫情给全球带来了巨大的冲击,SARS-CoV-2 病毒的快速传播让人们对其进化机制充满了好奇。在病毒进化的过程中,大量的突变不断涌现,这些突变不仅使病毒能够逃避宿主的免疫抵抗,还可能对病毒的基因组组成结构产生影响。然而,目前对于 SARS-CoV-2 基因组组成结构在疫情期间的进化情况,科学界还缺乏深入的了解。为了填补这一知识空白,来自西班牙、意大利等多个国家研究机构的研究人员开展了一项关于 SARS-CoV-2 基因组进化的研究,其研究成果发表在《Scientific Reports》上。
研究人员主要运用了系统发育分析、序列组成复杂性(SCC)计算等技术方法。他们从 GISAID/Audacity 数据库中获取了大量高质量、无歧义符号的 SARS-CoV-2 基因组序列,通过分层随机抽样得到 1063 个完全测序的基因组用于后续分析。
研究结果
- SARS-CoV-2 的基因组组成结构:利用熵组成分割方法,研究发现 SARS-CoV-2 基因组由一系列统计上均质的组成结构域构成,不同分离株的结构域数量、长度和核苷酸组成存在显著差异 。参考基因组序列(hCoV-19/Wuhan/WIV04/2019|EPI_ISL_402124|2019-12-30)包含七个组成结构域,SCC 值为5.7×10−3 bits / 序列位置 。在分析的 1063 个基因组中,片段数量在 6 - 10 之间,SCC 值平均在4.9×10−3至8.5×10−3 bits / 序列位置之间。
- 系统发育进化趋势:通过系统发育岭回归分析 SCC 随时间的变化,研究人员发现 SCC 与时间的回归斜率显著低于布朗运动(BM)预期(p<0.01),表明 SCC 随时间呈下降趋势。对部分复杂性 SCC_RY 的分析也得到了类似结果,其回归斜率同样显著低于 BM 预期(p<0.01) 。这意味着 SARS-CoV-2 基因组的序列组成复杂性在逐渐降低,可能是病毒适应人类宿主的一种表现。同时,SCC 和 SCC_RY 的进化速率随时间增加,但 SCC 的斜率比预期更浅(p=0.01),SCC_RY 的斜率则相反(p=1) 。进一步的分析表明,SCC 和 SCC_RY 的进化速率可能在下降。
- K-mer 分布的偏差
- 链不对称性:使用S1不对称指数分析 K-mer 分布的链不对称性,发现K=1时,S1随时间呈高度显著的下降趋势(slope=−149.18,p<0.001) ,K=3时也有一定程度的下降。BMT 测试进一步证实了这一趋势,表明 SARS-CoV-2 基因组的链不对称性在逐渐减弱。
- 参与率(PR):研究人员对 PR 的分析发现,除K=2外,所有 K 值的 PR 均呈现高度显著的下降趋势,其中K=1时下降最为明显(slope=−187.258,p=0.01) 。这表明 SARS-CoV-2 在疫情期间有效使用的 K-mer 数量逐渐减少,病毒基因组逐渐简化和同质化。
- CpG 缺失:对 SARS-CoV-2 基因组中 CpG 频率的系统发育回归分析显示,虽然下降趋势较弱,但仍具有统计学意义(slope=−27.76,p=0.01) 。同时,其脱氨产物 UUG 的频率呈上升趋势。这一结果与 APOBEC(载脂蛋白 B mRNA 编辑催化多肽样蛋白)和 ZAP(锌指抗病毒蛋白)的作用机制相符,即 APOBEC 酶通过将 5’-UCG-3’位点转化为 5’-UUG-3’,使病毒 RNA 逃避 ZAP 的降解,从而导致 CpG 二核苷酸减少,UUG 三核苷酸增加。
- SCC 与其他生物学特征的系统发育相关性:构建系统发育广义最小二乘(PGLS)回归模型,以四个 SCC 为因变量,链不对称性(S1指数,K=1)、K-mer 的有效数量(PR,K=1)以及 CpG 和 UUG 的频率为自变量。结果显示,除 UUG 与 SCC_KM 和 SCC_RY 有一定关联,与 SCC 和 SCC_SW 无关联外,其他自变量与因变量之间的系统发育相关性均高度显著(P<≪0.001) 。其中,S1_K1 对 SCC_RY 有最强的正向影响,PR_K1 则呈现负向影响。
研究结论与讨论
研究表明,SARS-CoV-2 在适应人类宿主的过程中,其基因组组成结构发生了显著变化。SCC 和 SCC_RY 等指标的下降趋势,以及链不对称性、K-mer 有效数量和 CpG 频率的变化,都表明病毒的基因组组成复杂性在降低,朝着更对称和均质的结构进化。研究人员推测,宿主抗病毒防御系统对病毒基因组施加的定向突变压力,导致病毒 CpG 缺失(通过 C➔U 变化),这可能在病毒基因组组成异质性降低的过程中发挥了关键作用,是病毒通过遗传模拟适应人类宿主的一种方式。
这项研究为理解 SARS-CoV-2 的进化机制提供了重要线索,有助于进一步探究病毒与宿主之间的相互作用,对防控新冠疫情具有重要的理论指导意义。同时,研究人员也指出,还需要更多的实验来验证 SARS-CoV-2 作为遗传模拟的适应过程,例如将 SARS-CoV-2 的相关指标与人类基因组进行比较,以及在随机序列中引入 C➔U 变化观察 SCC 的演变等。