Nature Methods：识别全基因组测序研究中的罕见遗传变异

生物通首页 > 今日动态 > 正文

Nature Methods：识别全基因组测序研究中的罕见遗传变异

时间：2022年11月10日

来源：Nature Methods

编辑推荐：

印第安纳大学医学院的一组研究人员开发了专门的生物信息学软件，旨在识别全基因组测序研究中的罕见遗传变异。

生物统计学和健康数据科学助理教授Zilin Li博士是最近发表在《自然方法》杂志上的第一作者和共同通讯作者，该杂志详细介绍了使用STAARpipeline的变体-关联测试框架。

“尽管有上亿的罕见基因变异，但它们的研究一直具有挑战性，因为没有方便的、可扩展的和健壮的管道来进行全面的罕见变异分析，这需要对变异集而不是单个变异进行评估，”Li说。

STAARpipeline允许研究人员评估一系列罕见的非编码遗传变异，这将有助于基因研究。非编码遗传变异是基因组中不编码氨基酸的部分，氨基酸是结合形成蛋白质的分子。超过98%的人的DNA是非编码的。

“在99%的人类基因组中可以观察到罕见的变异，这是复杂性状和疾病缺失遗传力的一个主要来源”。

为了使用STAARpipeline，研究人员在程序中输入基因型(遗传密码)和表型(复杂性状或疾病代码)数据。该软件分析数据并识别罕见的变异，在基因中心分析中将变异分组为8个功能类别，在非基因中心分析中将变异分组为固定大小的滑动窗口和新提出的数据自适应动态窗口。基因中心分析关注基因内或基因附近的变异，而非基因中心分析关注基因间区域的变异，即位于基因之间的DNA片段。然后，该程序为每个变量集合并多个变量函数注释，以进一步增加分析能力，并为用户总结结果。

该研究团队已经在大样本量上测试了STAARpipeline，其中包括来自美国国家心肺血液研究所(NHLBI)跨组学精确医学项目的4万份样本量。在分析过程中，STAARpipeline发现了49个以基因为中心的非编码分析的显著关联，其中35个是基于6个新的非编码类别发现的。此外，数据自适应大小动态窗口分析在非编码基因组中检测到43个不重叠的显著关联，比经典的固定大小滑动窗口方法多19.4%。

STAARpipeline建立在Li和他的同事建立的另一个名为STAAR的程序之上，这是一种利用注释信息寻找联系和关联的遗传变异集测试。

“我们相信，STAARpipeline可以扩展到分析价值数亿的全基因组测序数据的变异，”Li说。“由于99%的人类基因组中都发现了罕见的变异，这个项目解决了信息分析中的一个重要空白。”