新方法彻底揭示了基因组拷贝数变化对人类健康的强烈影响

时间:2022年10月28日
来源:Cell

编辑推荐:

研究人员已经使用计算技术识别了数百万个大型结构变异,并将它们与身高、脂质水平和骨密度等健康相关的特征联系起来。

广告
   X   

拷贝数变异(CNVs)是基因组中某些个体被复制或删除的区域,是一种常见的基因致残突变类型。人类基因组包含数十万个CNVs,但典型的基因组分析方法只检测到最大的,科学家们不确定其中大多数的作用。

现在,麻省理工学院Broad研究所、哈佛大学、布里格姆妇女医院和哈佛医学院的一组研究人员开发了一种计算方法,在英国生物银行中检测到1500万个CNVs——比以前对相同数据的分析多6倍。研究人员用他们的方法发现了这些CNVs和几十种人类特征之间的数百种生物联系,揭示了特定基因和特征之间的新联系,如身高、血细胞计数和健康的生物标记。

今天发表在《Cell》杂志上的这些发现,是迄今为止对CNVs和性状之间联系的最彻底的分析,并提供了一种新的方法来检测和阐明更大的结构变异(如CNVs)的影响,它们以复杂的方式影响基因组。

“能够深入研究这些变异的潜力为我们提供了更多的机会来发现基因变异影响人类表现型的方式,”Broad的副成员、该研究的高级作者、布里格姆妇女医院和哈佛医学院的助理教授Po-Ru Loh说。“在下游,它为我们提供了更多的线索,使我们能够解释和理解遗传和性状变异之间的复杂联系。”

捕获拷贝数变量

许多生物库包含大量人群中单核苷酸多态性(SNPs)或DNA单字母变化的数据。虽然SNPs很常见,但通常对一个性状的影响很小。另一方面,CNVs——长度从5000到数百万碱基对不等——使一些基因失效,并能诱导基因组中更显著的变化,如增加一个基因的拷贝数量。Loh的团队希望从现有的SNP数据宝库(如英国生物银行)中改进对这些结构变化的检测。

“在许多大型队列中,遗传变异只能使用SNPs-阵列数据进行测量,使用目前的算法很难从中检测出小型CNVs。我们认为,队列中可能有其他信息,我们可以利用这些信息来提高我们检测这些CNVs的能力,”该研究的第一作者、Loh实验室的博士后研究员Margaux Hujoel说。

Hujoel和他的团队建立了一种算法,该算法将英国生物银行SNP探针强度数据进行分组,这些数据是基于共享一个单倍型(SNP集群)的个体之间的远亲关系。这减少了数据中的噪声,使检测CNVs的数量比以前的技术多6倍。他们发现,他们检测到的CNVs占了所有基因失活的一半,科学家此前将其归因于基因组结构变化。

然后,研究小组搜索了CNVs和56个性状之间的联系。他们确定了超过250个关联,涉及近100个基因座或基因组区域,这可能是CNVs的直接结果。许多研究揭示了特定基因和身高等特征之间的新联系。例如,有罕见的使UHRF2基因失效的CNVs的个体,平均比没有的个体矮约7厘米。其他具有强烈影响的罕见变异——只能在大型生物银行规模的队列中发现——可能为基因组对复杂疾病的影响提供有价值的见解。

隐藏的秘密

Hujoel和Loh与Chikashi Terao合作,Chikashi Terao是日本理化研究所综合医学中心的一个小组组长,他是Broad和布里格姆妇女医院的博士后,和Loh一起将他们的模型应用到来自日本生物银行的数据中,并证实了许多相同的趋势。Loh希望其他研究人员将使用他们的软件来分析其他生物银行的基因组数据。他说:“这个工具应该很容易适用于对其他祖先群体进行同样的分析,这可能会发现非常不同和有趣的基因关联。”

该团队表示,即使在英国生物银行,绝大多数CNVs仍有待发现。由于大型生物库主要是使用仅观察基因组中特定位置的阵列生成SNP数据,因此它们会遗漏大多数CNVs。Hujoel正在调整他们的方法,以便研究人员可以使用它来研究整个外显子组测序数据,这可以检查基因组中所有的蛋白质编码区域。Loh还设想,其他人可能会将其应用于全基因组测序数据,以检测整个基因组中的CNVs。

Hujoel说:“人们对探索基因组中那些迄今为止大多数基因关联研究都看不到的隐藏部分很感兴趣。我们认为我们的工作既是一种方法论,希望它将继续有用,并适用于其他数据来源,同时也是人们继续深入研究结构变化塑造人类特征的方式的更多动力。”


相关新闻
生物通微信公众号
微信
新浪微博


生物通 版权所有