基因组突变检测哪家强？国产FANSe算法大幅领先国外算法

时间：2022年12月6日

来源：暨南大学

编辑推荐：

近日，暨南大学、华南理工大学团队发表论文 Towards an accurate and robust analysis pipeline for somatic mutation calling，比较了当前5种突变检测算法在低频突变标准测试数据集上的性能，发现国产FANSe算法的检测效果远胜于国际上常用的算法，速度还要快上几十倍。这将为癌症诊疗等应用提供重要的标准化依据。

现如今，大规模测序已可以在较低的成本下检测全基因组的突变，理论上可以解决癌症、遗传病等依赖于突变检测的应用。但实际上，此类应用乱象不止。2015年，美国ACMG组织测试，57个已明确诊断的遗传病患者的全外显子组测序未能找到任何致病突变；2017年，JAMA Oncology杂志发表研究，将40个患者的ctDNA样品送至两家国际知名的测序公司，大部分患者得到的两份突变检测报告中的突变完全不同。在实验和仪器早已高度标准化的情况下，主要的问题在于算法的准确性问题。由于测序数据量极大，因此运算量极大，虽有十分准确并且公认的BLAST等算法存在，但为了能在可以接受的计算资源消耗下得到结果，人们开发了许多专用于大规模测序场景下的分析算法，牺牲了精度来换取运算速度。由于稳健性缺乏保证，突变检测流程一直无法做到规范化，加上没有接近真实情景的组学级别的标准数据集作为评测基准，突变分析流程的选择一直十分随意，长期处于“看着哪个顺眼就用哪个”，却始终不清楚哪种方法更准确、更快速。

华南理工大学杜红丽教授团队2020年使用多个真实世界的测序数据集，制作了一系列基因组级别的低频突变标准测试数据集，这是世界上第一个接近真实测序场景、并有明确“标准答案”的突变检测评测数据集，可以客观真实地反映突变检测流程的能力。当时他们评测了常见的Mutect2和Strelka2，发现其对低频突变（1-5%的突变频率）的检出率非常低，且800x的通量仍不足以达成高检出率。但从原理上，如此高深度的测序理应能在统计上发现绝大部分的低频突变，因而更灵敏、更准确的算法应该是存在的。

在本研究中，除了Mutect2和Strelka2之外，研究者们还评测了可以用于体细胞突变检测的VarDict和VarScan，以及当前唯一一个纯国产的测序分析流程FANSe。结果显示，所有分析流程检测出的突变，95%以上都是准确的，在突变频率>=5%时，给出的突变99%都是正确的，即 “假阳性”较少，但灵敏度则有巨大的差异。在所有场景下（突变频率1-40%，测序深度100-800x），FANSe的灵敏度都显著超越其他所有算法，即FANSe能检出更多的突变，同时保持很高的准确度。即便是1%突变率下，FANSe也可以正确检出87%的突变，而此时Mutect2和Strelka2仅能检出20%左右的突变。较为冷门的VarScan和VarDict虽逊色于FANSe，但也能检出80%左右的突变。这显示出算法选择对结果会有巨大的影响，决不可“人云亦云”地任意选择突变检测算法。

研究者还发现，Mutect2的版本经常更新，然而不同版本的Mutect2对同一个数据集也能给出相当不同的结果。4.1.0， 4.1.5，4.2.0， 4.2.5 四个版本的Mutect2对同一个数据集的突变检测中，仅有约四分之一的突变能被四个版本都检出，而且并不是版本越新效果越好。因此，对某些算法而言，频繁更新版本对应用而言反而是坏事，算法的稳健性需要引起使用者的高度重视。

在低频突变场景下，FANSe检测突变的能力极强，那么其他算法为何不能检测出这些突变呢？研究者仔细研究发现，由于其他四个流程均使用了BWA算法进行序列比对，有11个突变位点是因为BWA未能将含有突变的reads比对到基因组上，从而将这些突变位点丢弃。而其余的439-810个突变位点则是BWA比对上了含有突变的reads，但是被各流程的SNV检测模型给过滤掉了。由于各家算法均未公开具体SNV检测数学模型，因而无法探究这些过滤器的具体问题，也就无法提出改进意见。

在速度上，FANSe流程更是一骑绝尘，无论是序列比对(mapping)过程还是突变检测过程，均比其他流程快上数量级，而如果运行在云平台模式下，还能更快。

本研究使用标准评测数据集客观评价了几种常用的突变检测算法流程，纯国产的FANSe流程毫无疑问地拔得头筹，其“又快又准”的特性使得其十分适合用于标准化、大规模的研究和临床实践。这也说明中国在组学底层技术上取得了可观的领先地位。

论文：Towards an accurate and robust analysis pipeline for somatic mutation calling

https://www.frontiersin.org/articles/10.3389/fgene.2022.979928/full