在生命科学的探索之旅中,无细胞 DNA(cfDNA)宛如一座蕴藏着无数宝藏的矿山,为众多疾病的诊断和研究带来了新的曙光。cfDNA 是一种游离在细胞外的 DNA,可从血液等体液中轻松获取,它蕴含着丰富的生物信息,在检测胎儿非整倍体、移植排斥、早期肿瘤、自身免疫性疾病以及炎症性疾病等方面展现出巨大的潜力。例如,在肿瘤研究领域,通过分析 cfDNA 中的体细胞拷贝数变异(CNAs),能够探测癌细胞基因组的变化;cfDNA 的片段组学分析,还能挖掘出用于癌症检测的敏感生物标志物。
然而,这座 “矿山” 的开采并非一帆风顺。在 cfDNA 分析的过程中,诸多 “拦路虎” 横亘在前。其中,预分析变量的影响尤为突出,像是文库制备协议的差异、测序平台的不同,都会给分析结果带来偏差。这些偏差就如同混入宝藏中的杂质,干扰了对疾病相关生物信号的准确判断,使得建立可靠的疾病预测模型困难重重。
为了攻克这些难题,来自 KU Leuven 等机构的研究人员踏上了探索之旅,他们开展了一项旨在开发新的数据校正方法以解决 cfDNA 测序偏差问题的研究。最终,他们成功研发出 DAGIP(一种基于最优传输理论和深度学习的数据校正方法),相关研究成果发表在《Genome Biology》上。
研究人员在此次研究中运用了多种关键技术方法。他们收集了多个不同的数据集,包括非侵入性产前检测(NIPT)、血液恶性肿瘤(HEMA)、卵巢癌(OV)以及用于片段组学分析的数据集(FRAG)。在数据处理方面,对单端和配对端测序数据进行了一系列的预处理操作,如将单端读取数据比对到参考基因组 hg38,去除重复读取,校准剩余数据等;对于片段组学数据,也进行了相应的特征提取和处理。同时,将 DAGIP 方法与多种传统方法进行对比,以此来评估 DAGIP 的性能。
下面让我们一同深入了解该研究的主要结果:
- 最优传输识别相关样本:基于最优传输(OT)理论构建的 DAGIP 方法,展现出了独特的优势。研究人员利用不同测序协议产生的技术重复样本进行实验,发现 OT 能够在存在预分析变量差异的情况下,准确识别相关样本。在对比不同方法对样本配对准确性的实验中,OT 方法将配对准确率从基于距离配对的 19.7% 大幅提升至 62.1%,有力地证明了其在减少技术偏差方面的巨大潜力。
- 准确估计和校正新样本偏差:为了探究 DAGIP 在处理新的未匹配样本时的能力,研究人员进行了 5 折交叉验证实验。结果显示,DAGIP 在大多数实验设置中表现出色,平均配对准确率达到 0.644,在所有方法中排名第一,且其改进效果相较于其他方法(除中心和缩放法外)具有显著差异。这表明 DAGIP 能够准确估计和校正新样本中的技术偏差。
- 去除覆盖度和片段组学谱的偏差:研究人员进一步研究了 DAGIP 在叠加不同文库制备方法产生的数据集方面的能力。以 FRAG 数据集为例,该数据集包含使用不同试剂盒制备文库的健康对照样本,不同试剂盒产生的片段组学模式存在明显差异。经过 DAGIP 等方法处理后,不同对照组之间的差异得到了有效叠加。通过统计测试和 Q-Q 图分析发现,DAGIP 在平均绝对误差方面表现最佳,为 0.144,这意味着它在去除覆盖度和片段组学谱的偏差方面具有较高的准确性。
- 保留跨协议的拷贝数变异:由于担心域适应方法可能存在过拟合风险,研究人员评估了校正后的 CNA 谱与原始数据的一致性。他们对卵巢癌病例(OV 数据集)进行 CNA 分析,通过比较不同设置下的 CNA 检测结果,发现 DAGIP 在保持拷贝数变异信息方面表现出色。在跨域一致性评估中,DAGIP 的平均得分达到 0.273,高于其他方法,且在一些参数的评估中,其改进效果显著优于其他方法,这表明 DAGIP 能够有效地保留跨协议的拷贝数变异。
- 分离癌症信号与非生物变异:研究人员还测试了 DAGIP 在血液癌症检测中的适用性。他们使用简单的机器学习模型对多个数据集进行训练,结果显示,在多种癌症检测中,DAGIP 相较于基线方法有明显的性能提升。在平均马修斯相关系数(MCC)的评估中,DAGIP 达到 0.473,排名第一,这表明 DAGIP 能够有效地分离癌症信号与非生物变异来源,提高癌症检测的准确性。
总的来说,DAGIP 算法的诞生,为全基因组 cfDNA 测序数据的偏差校正提供了一种全新的解决方案。它不仅适用于多种数据模态,如体细胞 CNA 和片段组学分析,而且通过实验证明了其在提升数据质量、增强癌症检测能力方面的显著效果。这项研究为基于 cfDNA 的癌症检测开辟了新的道路,有望在未来的临床实践中得到广泛应用,帮助医生更准确地诊断癌症,为患者的治疗争取宝贵的时间。然而,研究人员也指出,该方法存在一定的局限性,如无法保证偏差校正算法所学习的函数能准确反映 PCR 扩增或测序的机制。在实际应用中,需要充分考虑样本组之间的生物学差异,避免引入混淆因素。但无论如何,这项研究成果无疑为生命科学和健康医学领域带来了新的希望和突破。