昆虫DNA条形码外分布样本的检测性能与局限：为生物多样性监测构建稳健的未知物种识别系统

时间：2026年2月19日

来源：Ecology and Evolution

编辑推荐：

本文聚焦DNA条形码在参考数据库不完整条件下识别未知（外分布，OOD）样本这一关键挑战。研究评估了遗传距离与深度学习两种方法在昆虫DNA条形码物种鉴定及OOD检测中的性能。结果表明，虽然物种鉴定本身高度准确，但OOD检测性能更易受序列噪音与片段长度缩短（<300 bp）的影响。本研究为设计能够有效应对未知物种的鉴定流程，提高大规模生态调查（如DNA宏条形码）的可靠性，提供了关键的实证依据和优化指导。

引言

准确地将标本鉴定到已知分类群是生物学研究的基石。然而，分类学专业知识稀缺，已成为大规模生态调查的主要瓶颈。DNA条形码（DNA barcoding）作为一种基于标准化短DNA片段（如动物鉴定的CO1片段）的鉴定方法，为快速、高通量且非专家可及的物种识别提供了可能。随着高通量测序技术的发展，DNA宏条形码（Metabarcoding）的应用极大地扩展了生物监测的规模和范围，将研究目标延伸至以往被忽视的群落。

然而，现代DNA条形码应用面临新的挑战：鉴定通常使用比原始条形码标记更短的片段；序列通常在包含更多测序错误的环境下恢复；此外，高通量生物多样性调查常针对未充分探索的生物区系，其参考数据库缺乏代表性序列。其中，一个需要特别关注的方面是参考数据库中不存在的物种样本的影响，这类样本被称为外分布样本。由于当前序列数据库并未完全覆盖生命的多样性（特别是高度多样化的节肢动物类群），使用代表性不足的数据库进行调查不可避免地会产生OOD样本。未被检测到的OOD样本会导致错误鉴定，因此，大规模条形码应用中的分子鉴定方法需要适当处理OOD样本。

材料与方法

数据获取与准备

本研究从生命条形码数据库（BOLD）下载数据以评估分类和OOD检测模型的性能。研究聚焦于样本量、分类覆盖度和地理范围均充足的昆虫属，涵盖了膜翅目、双翅目、鳞翅目和鞘翅目这四个主要类群。最终筛选出20个属，共34,408条CO1序列。

数据处理包括：仅保留长度在400-1000 bp之间且属于“5BP”DNA条形码区域的片段；根据物种内个体数量将物种划分为内分布（ID）和外分布（OOD）样本（假设稀有物种是OOD样本的主要来源）。为了模拟不同场景，研究构建了多个数据集，涵盖两个数据库规模类别（“充分”和“小”）、两个噪音水平（0.0%、2%）以及三个片段长度（650 bp、300 bp、150 bp）。

深度学习模型

研究采用了一个典型的卷积神经网络（CNN）架构进行物种级分类。输入DNA序列被编码成L×4的单热向量矩阵。CNN模型包含三个连续的卷积块（每个块包含1D卷积、批量归一化、1D最大池化、ReLU激活和Dropout层），随后是全连接分类层。

对于OOD检测，研究采用了三种基于预测不确定性分数的方法：最大softmax概率（MSP）、能量分数和Mahalanobis距离分数。这些方法旨在无需OOD样本暴露于训练阶段的情况下，将样本区分为ID或OOD。

基于距离的分类与OOD检测

作为性能基线，研究采用了基于序列距离的传统分类方法，包括基于K2P遗传距离和BLAST百分比相似度的1-最近邻（1NN）分类。对于OOD检测，计算了样本与其自身类别/物种内样本的最小距离，并取95%分位数作为类别OOD阈值。

梯度归因与回归分析

为了可视化影响分类决策的序列区域，研究使用了一维梯度加权类激活映射（GradCAM）。此外，还通过计算一组群体遗传学指标（如物种内平均遗传距离、物种间最小遗传距离等），并使用最小绝对收缩和选择算子（LASSO）进行多元回归建模，以识别影响鉴定性能的决定因素。

结果

数据集概况与鉴定准确性

在四个目标目共13,078个属中，仅有82个（0.6%）满足样本量标准。ID样本和OOD样本数量分别为28,422和5,986。

在ID鉴定任务中，深度学习和距离方法都非常准确。对于650 bp的全长片段，CNN模型的平均基线预测准确率为0.97，两种传统方法（K2P距离和BLAST）也同样准确（分别为0.971和0.973）。准确率随着片段长度的减少而下降。当片段长度为150 bp时，CNN模型（0.960）略优于传统方法（0.945和0.946）。当训练数据集规模较小时，CNN性能下降，而距离方法受影响较小。引入2%的序列噪音会降低鉴定性能，但在大多数条件下，准确率的下降在2%以内。

OOD检测性能

OOD检测任务的性能模式与鉴定任务相似。对于长片段（650 bp），CNN模型的表现不及传统方法（FNR@95%：CNN为0.128，K2P距离为0.103，BLAST为0.101）。然而，对于较短的片段，CNN表现更优（150 bp片段：CNN为0.156，K2P距离为0.176，BLAST为0.170）。片段长度减少对OOD检测性能的影响更为显著。在深度学习的OOD检测方法中，能量分数和Mahalanobis距离的性能相近，且显著优于MSP方法。三种方法的共识通常能带来更好的性能，但改进并不显著。

OOD样本中与任何ID样本遗传距离为零的比例（即“完美分类器”也无法区分的比例）在650 bp时为0.061，在150 bp时达到0.161。OOD检测方法的性能接近这些最优值，但在长片段上的差距更大。

序列噪音显著损害了所有方法的OOD检测性能（平均FNR增加=0.064）。在规模较小的数据集中，基于距离的方法的FNR略有改善，这可能是由于ID与OOD样本之间共享的相同序列数量减少所致。

回归模型分析

回归建模表明，鉴定准确率与每个物种的样本数量、物种间最小遗传距离呈正相关，与类别数量和分类学完整性呈负相关。OOD检测的FNR@95%与物种间最小遗传距离负相关，与物种内平均遗传距离正相关。此外，鉴定准确率与FNR显著相关，表明当模型能正确识别ID类别时，其OOD检测能力也更准确。

梯度归因分析

GradCAM定位出的对分类重要的序列区域，很大程度上与比对中遗传变异高的区域相对应。这些区域的遗传变异与平均GradCAM分数呈强相关。相反，能量分数归因的重要区域与高遗传变异区域之间的对应关系较弱，相关性也较低。这反映了两项任务的不同性质：某个位点可能在ID样本中完全不变，但对OOD物种的检测可能高度重要。

讨论

在本研究考虑的条件下，当有足够样本时，基于序列的鉴定方法高度准确且对序列噪音具有鲁棒性。相比之下，OOD检测是一项更具挑战性的任务，对于短且有噪音的片段，其错误率更高。最重要的是，OOD检测的准确性受到仅靠测序无法诊断的样本的强烈限制，在某些极端条件下，这类样本占OOD样本的约16%。

忽视OOD样本的风险一直存在但难以量化。本研究提供了一个粗略的估计：假设当前批量标本中OOD类型的比例为17%，那么在所有标本中，最多可能有约3%被错误地鉴定为参考物种，当目标包含更多未知样本或噪音序列时，错误率会更高。因此，设计实验时需要谨慎，包括选择合适的标记和测序技术，以避免忽略这些未知物种。

本研究仅在有限分类群和简单错误谱的简化条件下检验了OOD检测的性能。未来的性能评估需要使用更真实的模拟群落和多种误差源。此外，方法论上也有改进空间，例如使用多基因座标记或长读长测序技术来增加可用的诊断性变异。

整合额外信息（如地理定位、环境信息、形态特征）是提高OOD检测耐受性的另一途径。高通量成像和机器学习算法有助于整合多源信息，设计“多模态”模型。

深度学习模型与距离方法整体性能相似，但总体趋势是短片段利于CNN模型，长片段利于距离方法。深度学习模型还提供了有用的解释性信息。GradCAM解释表明，比对中高变区域对ID样本的分类任务具有高信息量，但对OOD检测任务则不一定，这反映了两项任务本质的差异。

总结

总之，DNA条形码的序列鉴定非常准确，这得益于性能改进的集体努力。然而，不完整的数据库和OOD样本的存在仍然构成方法学挑战，需要谨慎的实验设计以避免忽略这些未知物种。未来，机器学习模型应整合多种信息来源，以实现更稳健、基于证据的物种鉴定。DNA序列数据库和生态信息的快速积累，加上先进的机器学习算法，将有望推动综合生物多样性监测系统的部署。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部