编辑推荐:
卡内基梅隆大学(Carnegie Mellon University)和多伦多大学(University of Toronto)的研究人员开发了一种新的k-mer草图宏基因组分析器,称为sylph,它使科学家能够比其他分析器更快、更准确地分析基因组数据。“测序越来越好,这很好,因为这意味着我们有更多的数据可以处理,”CMU计算机科学学院Ray和Stephanie Lane计算生物系的助理教授Yun William Yu说。“但这也意味着我们需要检查更多的数据,这可能需要更多的时间。”例如,当分析人类肠道样本以确定存在的细菌时,其他方法读取测序的基因组数据;将其与大肠杆菌或艰难梭菌等特定细菌进行匹配;然后测定这些细菌在样品中的比例。Sylph通过将已知细菌与样本进行比较来逆转这一过程。该方法将细菌基因组分解成更小的子样本,称为k-mers,然后将其与初始样本进行比较。如果在一个子样本中发现一定比例的细菌,sylph就可以得出细菌存在的结论。
卡内基梅隆大学(Carnegie Mellon University)和多伦多大学(University of Toronto)的研究人员开发了一种新的k-mer草图宏基因组分析器,称为sylph,它使科学家能够比其他分析器更快、更准确地分析基因组数据。
“测序越来越好,这很好,因为这意味着我们有更多的数据可以处理,”CMU计算机科学学院Ray和Stephanie Lane计算生物系的助理教授Yun William Yu说。“但这也意味着我们需要检查更多的数据,这可能需要更多的时间。”
例如,当分析人类肠道样本以确定存在的细菌时,其他方法读取测序的基因组数据;将其与大肠杆菌或艰难梭菌等特定细菌进行匹配;然后测定这些细菌在样品中的比例。Sylph通过将已知细菌与样本进行比较来逆转这一过程。该方法将细菌基因组分解成更小的子样本,称为k-mers,然后将其与初始样本进行比较。如果在一个子样本中发现一定比例的细菌,sylph就可以得出细菌存在的结论。
Yu和哈佛医学院和丹娜法伯癌症研究所的博士后Jim Shaw一起研究这种方法,发现sylph使用的计算资源更少,运行速度比其他分析器更快。
他说:“Sylph可以帮助解决这类问题的计算工作流程。这也意味着我们可以在计算生物学研究中扩展到更大的数据集。随着我们获得越来越多的测序数据,许多其他工具的规模变得更糟。显然,当我们获得更多数据时,我们必须读取更多数据,sylph也会变慢。但我们的工具将在更长的时间内保持更快的速度。”
除了速度外,研究人员还发现,sylph比其他侧写器更精确。研究人员在《Nature Biotechnology》上发表的一篇论文中写道,Sylph的创新“是一种基于零膨胀泊松统计的统计模型,可以在低覆盖率下消除遏制平均核苷酸同一性(ANI),解决低丰度ANI计算问题。”该模型的公式可以按比例调整,使其能够检测到样本中存在的罕见基因组。
Yu表示,他计划将sylph的某些方面应用到他未来的工作中,以改进计算分析工具。
Rapid species-level metagenome profiling and containment estimation with sylph
生物通 版权所有