编辑推荐:
SAVANA利用机器学习和长读长测序数据,准确鉴定癌症基因组中的结构变异(如插入、缺失、重复或重排等大的基因组改变)及其导致的拷贝数畸变。
准确检测体细胞结构变异(SV)和体细胞拷贝数畸变(SCNA)对于研究癌症进化背后的突变过程至关重要。长读长测序技术能够分析连续的DNA长片段,有望帮助研究人员检测癌症基因组中复杂的遗传变异。
然而,癌症基因组相当复杂,这意味着标准的分析工具往往难以胜任,导致假阳性结果出现和数据的不准确解读。这些误导性的结果可能会影响科学家们判断肿瘤如何演变以及如何对治疗产生应答。
为了应对这一挑战,欧洲分子生物学实验室旗下欧洲生物信息学研究所(EMBL-EBI)和Genomics England等机构的研究人员开发出一种新算法 SAVANA,并于5月28日发表在《Nature Methods》杂志上。
SAVANA利用机器学习和长读长测序数据,准确鉴定癌症基因组中的结构变异(如插入、缺失、重复或重排等大的基因组改变)及其导致的拷贝数畸变。
共同通讯作者、EMBL-EBI的团队负责人Isidro Cortes-Ciriano表示:“由于其他分析工具不是专门针对癌症基因组学数据的特殊性而开发的,它们经常会检测到假阳性结果,从而导致临床和生物学解读出现错误。”
“SAVANA改变了这一现状。通过直接在癌症样本的长读长测序数据上训练算法,我们开发出一种新方法,能够区分真正的癌症相关基因组改变与测序假象,让我们能够以前所未有的分辨率阐明癌症背后的突变过程。”
SAVANA对肿瘤样本的长读长测序数据进行扫描,以检测体细胞SV和SCNA,并推断肿瘤纯度和倍性。无论是否存在匹配的生殖系对照样本,SAVANA都能开展分析。这种算法的关键创新在于采用机器学习技术来区分体细胞SV与测序和比对错误。
共同第一作者、EMBL-EBI的博士后研究员Carolin Sauer表示:“SAVANA能够准确区分体细胞结构变异、拷贝数畸变、肿瘤纯度和倍性——这些都是了解肿瘤生物学和指导临床治疗决策的关键。”
研究人员收集了99对肿瘤-正常样本,包括57例软组织肉瘤、28例骨肉瘤和14例胶质母细胞瘤。他们利用纳米孔测序平台和Illumina测序平台对高分子量DNA进行测序。之后,他们将SAVANA的性能与现有的SV检测算法进行比较。
他们发现,SAVANA检测到了Illumina测序中检测到的绝大多数SV和SCNA,还发现了一些额外的重排,这种重排无法通过短读长测序检测到。
为了定量特异性,研究人员将每种算法应用于COLO829BL细胞的测序重复,其中一个重复作为肿瘤,另一个作为匹配的生殖系对照。在此设置下,特异性最佳的算法不应检测到任何体细胞SV。他们发现,SAVANA的特异性比NanomonSV高13倍,比SVIM高82倍。
“与现有方法相比,SAVANA在不同克隆性水平、SV大小和SV类型范围内都展现出明显更高的灵敏度和特异性。这对于临床样本的分析至关重要,因为在多种癌症类型中,肿瘤细胞的含量往往较低,” 作者们写道。
研究人员认为,SAVANA能够提升SV的检测和分析能力,帮助人们更可靠地解释肿瘤生物学机制,这将促进长读长测序在研究和检测人类肿瘤样本中临床相关重排的可靠应用。
SAVANA符合变异检出格式(VCF)规范,便于人们开展下游分析。您可通过以下地址获取:https://github.com/cortes-ciriano-lab/savana
生物通 版权所有