在新冠疫情期间,分子检测成为诊断传染病的关键工具,为患者管理和感染控制策略提供了重要依据。然而,病毒的持续传播和不受阻碍的增殖产生了许多具有独特突变的变体。这些突变可能导致 “特征侵蚀”,即使用病原体早期版本的基因序列开发的检测方法,在检测新变体时可能会产生假阴性结果。这一问题严重影响了传染病诊断的准确性,对公共卫生构成了潜在威胁。为了解决这一难题,来自美国多个机构(MRIGlobal、美国食品药品监督管理局等)的研究人员开展了一项极具意义的研究,相关成果发表在《Scientific Reports》上。
研究人员为了实现用机器学习模型预测特定突变对聚合酶链反应(PCR)检测性能的影响,运用了多种关键技术方法。首先,他们利用计算机分析工具 PSET(PCR Signature Erosion Tool)对 43 种 SARS-CoV-2 定量 PCR(qPCR)检测进行跟踪,筛选出 15 种高风险检测用于后续研究。接着,设计包含 228 个 SARS-CoV-2 PCR 模板的突变面板,以代表不同类型的错配。然后,进行 PCR 实验,对突变模板和野生型模板在不同浓度下扩增,获取循环阈值(Ct)值。最后,选择 13 个特征变量描述突变模板,运用七种不同的机器学习算法构建模型进行预测。
下面来看具体的研究结果:
- Ct 值差异:研究人员计算了每个突变模板在不同浓度下与野生型模板的 Ct 值差异(ΔCt 值)。结果发现,大部分 Ct 值大于 -1,平均 ΔCt 值为 2.70,有 285 个 ΔCt 值大于 3。非单核苷酸多态性(SNP)模板的 ΔCt 值显著高于 SNP 模板,且引物上的 SNP 和非 SNP 突变的 ΔCt 值高于探针上相同突变类型。不过,各突变类型的 10% - 90% 分位数的 ΔCt 值范围很宽,表明模板突变类型难以准确预测 ΔCt 值。同时,计算突变模板特征与 ΔCt 值的 Spearman 相关性后发现,虽然部分特征与 ΔCt 值显著相关,但没有特征与之有强相关性,说明突变类型和单个突变特征对 ΔCt 值的预测能力有限。
- 显著变化模板:研究中只有少数突变导致目标完全检测不到,多数突变使 Ct 值增加。研究人员基于四个预先设定的阈值确定显著变化的突变模板数量,这些定义用于后续机器学习模型的训练和验证。
- 模型比较:通过十折交叉验证(10FCV)的受试者工作特征曲线下面积(AUROC)比较七种监督学习模型的性能,发现随机森林分类器表现最佳,平均 AUROC 为 0.91。多数模型在 “ΔCt>3 或未检测到(ND)” 阈值下 AUROC 最高,因此选用该阈值进行额外的模型稳健性分析。
- 模型稳健性:用 10FCV、留一法交叉验证(LOOCV)和留一检测法交叉验证(LOAOCV)评估模型稳健性。结果显示,10FCV 和 LOOCV 评估的模型性能相似,随机森林分类器在 10FCV 下表现出色,敏感性为 85.5%,特异性为 89.1%。但 LOAOCV 评估时,所有模型性能显著下降,多数模型特异性大幅降低,随机森林分类器的 LOAOCV 敏感性为 73.3%,特异性为 72.4% 。
- 检测水平性能:计算随机森林模型在不同检测下的敏感性和特异性,发现各检测的模板数量与模型性能无显著相关性,CDC-N2 检测在 LOOCV 和 LOAOCV 结果中表现出最大差异。
- 特征重要性:对随机森林模型进行特征重要性分析,发现错配到引物 3' 端的距离、引物和探针错配导致的退火温度变化是最重要的三个特征。
在研究结论和讨论部分,研究证实了引物 3' 端附近错配和引起退火温度显著变化的错配会严重影响 PCR 检测。机器学习模型虽能综合多个错配特征预测错配影响,但模型对未用于训练的引物 / 探针设计错配的预测性能显著下降,说明当前研究的特征表示和模型训练算法可能不适用于未见过的引物 / 探针设计。此外,研究中测试的一些报道会导致检测失败的突变在该研究条件下未出现检测失败,表明错配对 qPCR 扩增和检测的影响可能因仪器和 PCR 方案而异。总体而言,该研究的方法适用于预测训练数据中引物 / 探针设计的新错配影响,但要构建通用模型,还需新的错配特征表示。尽管存在局限性,该研究仍可为公共卫生提供帮助,能预测可能导致广泛使用检测出现 “特征侵蚀” 的新突变,对流感和 SARS-CoV-2 等高突变率病毒的检测意义重大。