引言
准确地将标本鉴定到已知分类群是生物学研究的基石。然而,分类学专业知识稀缺,已成为大规模生态调查的主要瓶颈。DNA条形码(DNA barcoding)作为一种基于标准化短DNA片段(如动物鉴定的CO1片段)的鉴定方法,为快速、高通量且非专家可及的物种识别提供了可能。随着高通量测序技术的发展,DNA宏条形码(Metabarcoding)的应用极大地扩展了生物监测的规模和范围,将研究目标延伸至以往被忽视的群落。
然而,现代DNA条形码应用面临新的挑战:鉴定通常使用比原始条形码标记更短的片段;序列通常在包含更多测序错误的环境下恢复;此外,高通量生物多样性调查常针对未充分探索的生物区系,其参考数据库缺乏代表性序列。其中,一个需要特别关注的方面是参考数据库中不存在的物种样本的影响,这类样本被称为外分布样本。由于当前序列数据库并未完全覆盖生命的多样性(特别是高度多样化的节肢动物类群),使用代表性不足的数据库进行调查不可避免地会产生OOD样本。未被检测到的OOD样本会导致错误鉴定,因此,大规模条形码应用中的分子鉴定方法需要适当处理OOD样本。
材料与方法
数据获取与准备
本研究从生命条形码数据库(BOLD)下载数据以评估分类和OOD检测模型的性能。研究聚焦于样本量、分类覆盖度和地理范围均充足的昆虫属,涵盖了膜翅目、双翅目、鳞翅目和鞘翅目这四个主要类群。最终筛选出20个属,共34,408条CO1序列。
数据处理包括:仅保留长度在400-1000 bp之间且属于“5BP”DNA条形码区域的片段;根据物种内个体数量将物种划分为内分布(ID)和外分布(OOD)样本(假设稀有物种是OOD样本的主要来源)。为了模拟不同场景,研究构建了多个数据集,涵盖两个数据库规模类别(“充分”和“小”)、两个噪音水平(0.0%、2%)以及三个片段长度(650 bp、300 bp、150 bp)。
深度学习模型
研究采用了一个典型的卷积神经网络(CNN)架构进行物种级分类。输入DNA序列被编码成L×4的单热向量矩阵。CNN模型包含三个连续的卷积块(每个块包含1D卷积、批量归一化、1D最大池化、ReLU激活和Dropout层),随后是全连接分类层。
对于OOD检测,研究采用了三种基于预测不确定性分数的方法:最大softmax概率(MSP)、能量分数和Mahalanobis距离分数。这些方法旨在无需OOD样本暴露于训练阶段的情况下,将样本区分为ID或OOD。
基于距离的分类与OOD检测
作为性能基线,研究采用了基于序列距离的传统分类方法,包括基于K2P遗传距离和BLAST百分比相似度的1-最近邻(1NN)分类。对于OOD检测,计算了样本与其自身类别/物种内样本的最小距离,并取95%分位数作为类别OOD阈值。
梯度归因与回归分析
为了可视化影响分类决策的序列区域,研究使用了一维梯度加权类激活映射(GradCAM)。此外,还通过计算一组群体遗传学指标(如物种内平均遗传距离、物种间最小遗传距离等),并使用最小绝对收缩和选择算子(LASSO)进行多元回归建模,以识别影响鉴定性能的决定因素。
结果
数据集概况与鉴定准确性
在四个目标目共13,078个属中,仅有82个(0.6%)满足样本量标准。ID样本和OOD样本数量分别为28,422和5,986。
在ID鉴定任务中,深度学习和距离方法都非常准确。对于650 bp的全长片段,CNN模型的平均基线预测准确率为0.97,两种传统方法(K2P距离和BLAST)也同样准确(分别为0.971和0.973)。准确率随着片段长度的减少而下降。当片段长度为150 bp时,CNN模型(0.960)略优于传统方法(0.945和0.946)。当训练数据集规模较小时,CNN性能下降,而距离方法受影响较小。引入2%的序列噪音会降低鉴定性能,但在大多数条件下,准确率的下降在2%以内。
OOD检测性能
OOD检测任务的性能模式与鉴定任务相似。对于长片段(650 bp),CNN模型的表现不及传统方法(FNR@95%:CNN为0.128,K2P距离为0.103,BLAST为0.101)。然而,对于较短的片段,CNN表现更优(150 bp片段:CNN为0.156,K2P距离为0.176,BLAST为0.170)。片段长度减少对OOD检测性能的影响更为显著。在深度学习的OOD检测方法中,能量分数和Mahalanobis距离的性能相近,且显著优于MSP方法。三种方法的共识通常能带来更好的性能,但改进并不显著。
OOD样本中与任何ID样本遗传距离为零的比例(即“完美分类器”也无法区分的比例)在650 bp时为0.061,在150 bp时达到0.161。OOD检测方法的性能接近这些最优值,但在长片段上的差距更大。
序列噪音显著损害了所有方法的OOD检测性能(平均FNR增加=0.064)。在规模较小的数据集中,基于距离的方法的FNR略有改善,这可能是由于ID与OOD样本之间共享的相同序列数量减少所致。
回归模型分析
回归建模表明,鉴定准确率与每个物种的样本数量、物种间最小遗传距离呈正相关,与类别数量和分类学完整性呈负相关。OOD检测的FNR@95%与物种间最小遗传距离负相关,与物种内平均遗传距离正相关。此外,鉴定准确率与FNR显著相关,表明当模型能正确识别ID类别时,其OOD检测能力也更准确。
梯度归因分析
GradCAM定位出的对分类重要的序列区域,很大程度上与比对中遗传变异高的区域相对应。这些区域的遗传变异与平均GradCAM分数呈强相关。相反,能量分数归因的重要区域与高遗传变异区域之间的对应关系较弱,相关性也较低。这反映了两项任务的不同性质:某个位点可能在ID样本中完全不变,但对OOD物种的检测可能高度重要。
讨论
在本研究考虑的条件下,当有足够样本时,基于序列的鉴定方法高度准确且对序列噪音具有鲁棒性。相比之下,OOD检测是一项更具挑战性的任务,对于短且有噪音的片段,其错误率更高。最重要的是,OOD检测的准确性受到仅靠测序无法诊断的样本的强烈限制,在某些极端条件下,这类样本占OOD样本的约16%。
忽视OOD样本的风险一直存在但难以量化。本研究提供了一个粗略的估计:假设当前批量标本中OOD类型的比例为17%,那么在所有标本中,最多可能有约3%被错误地鉴定为参考物种,当目标包含更多未知样本或噪音序列时,错误率会更高。因此,设计实验时需要谨慎,包括选择合适的标记和测序技术,以避免忽略这些未知物种。
本研究仅在有限分类群和简单错误谱的简化条件下检验了OOD检测的性能。未来的性能评估需要使用更真实的模拟群落和多种误差源。此外,方法论上也有改进空间,例如使用多基因座标记或长读长测序技术来增加可用的诊断性变异。
整合额外信息(如地理定位、环境信息、形态特征)是提高OOD检测耐受性的另一途径。高通量成像和机器学习算法有助于整合多源信息,设计“多模态”模型。
深度学习模型与距离方法整体性能相似,但总体趋势是短片段利于CNN模型,长片段利于距离方法。深度学习模型还提供了有用的解释性信息。GradCAM解释表明,比对中高变区域对ID样本的分类任务具有高信息量,但对OOD检测任务则不一定,这反映了两项任务本质的差异。
总结
总之,DNA条形码的序列鉴定非常准确,这得益于性能改进的集体努力。然而,不完整的数据库和OOD样本的存在仍然构成方法学挑战,需要谨慎的实验设计以避免忽略这些未知物种。未来,机器学习模型应整合多种信息来源,以实现更稳健、基于证据的物种鉴定。DNA序列数据库和生态信息的快速积累,加上先进的机器学习算法,将有望推动综合生物多样性监测系统的部署。