北方欧洲锯蜂线粒体COI基因DNA条形码存在普遍多态性:挑战“一个个体,一个条形码”的范式

时间:2026年2月18日
来源:Systematic Entomology

编辑推荐:

本文深入探讨了在北方欧洲锯蜂中发现的一种独特现象:单个个体普遍存在多种看似功能完整的线粒体COI基因DNA条形码变体。这一发现挑战了DNA条形码技术“一个个体对应一个条形码”的核心前提,为异质性(heteroplasmy)和长核线粒体DNA序列(NUMTs)的研究提供了重要线索,并对依赖宏条形码进行生物多样性评估的物种清单准确性提出了重要警示。

广告
   X   

引言
DNA条形码技术,即利用标准DNA片段进行物种鉴定,自二十多年前问世以来,已彻底改变了生物多样性研究的许多领域。其有效性基于一个前提:物种内的遗传变异远小于物种间的变异。在大多数动物类群中,线粒体细胞色素c氧化酶亚基I(COI)基因被证明是有效的物种鉴别标记。然而,锯蜂(膜翅目,广腰亚目)是这一模式的例外,其DNA条形码常常难以区分同属物种。前期研究发现,锯蜂在紧密相关的物种间普遍存在条形码共享现象,并且许多个体具有两个或多个高度分化的条形码。这暗示了长核线粒体DNA序列和/或异质性在锯蜂中可能很普遍。本研究旨在通过分析来自88个属的6763个锯蜂标本,系统性地调查锯蜂个体内存在两个或多个COI变体的频率、特征及其形成原因。
材料与方法
研究材料主要来自芬兰的野外采集,大部分为成虫,部分由幼虫饲养获得。样品处理、DNA提取、COI扩增和测序分别于芬兰奥卢大学和加拿大圭尔夫大学生物多样性基因组学中心完成。测序采用Pacific Biosciences Sequel平台,获得循环一致性序列。初始数据集包含来自6773个标本的14,090个序列变体。经过过滤(移除污染物、可诊断的NUMTs等),最终保留来自6763个锯蜂的14,072个序列。标本依据形态学鉴定至种或种组水平。通过一系列生物信息学步骤,包括使用BlastN、BlastX进行序列比对和污染排除,使用MAFFT进行多序列比对,以及翻译后检查移码突变和终止密码子,来识别并排除污染物和可识别的NUMT序列。为控制测序误差,分析中也考虑了仅包含至少由3次测序读取支持的变体的数据集。通过系统发育树构建(使用FastTree)和遗传距离计算(使用R包ape),进一步分析个体内变体间的进化关系。研究还计算了非同义替换与同义替换比率(dN/dS)以评估选择压力,并比较了具有多变异体与单变异体标本的性别比例。
结果
锯蜂数据集的表征
经过污染物和可诊断NUMT序列的排除后,剩余数据集包含来自6173个标本的7879个序列变体。在此数据集中,有20.8%的标本(1282个)被发现具有个体内COI变体。当仅考虑由至少3次读取支持的序列时,9.5%的标本(519个)具有个体内变体。在进一步排除单核苷酸差异的变体和可能的PCR嵌合体后,最终最严格过滤的数据集包含497个标本(占总数的9.1%)和1039个变体。
锯蜂中个体内变体的共存
具有多变异体的现象在锯蜂中广泛存在,但在不同属和物种间频率差异很大。例如,在FenellaMonophadnoidesEriocampa等属中,超过30%的标本被检测出个体内变异。在物种层面,Fenella nigritaEriocampa dorpaticaEuura respondens等物种的所有受检个体均表现出多变异体现象。相比之下,在PristiphoraArgeEmpria等属中,该现象则较为罕见或未被检测到。分析还表明,具有多变异体的标本与单变异体标本之间的性别比例无统计学显著差异。
锯蜂个体内变体的差异
个体内COI变体之间的遗传差异有时非常显著。例如,在Empria pumila标本中检测到多达4个变体,其间的遗传距离(p-distance)在2.3%到5.7%之间。Tenthredo silensis的个体内变体差异高达6.9%,而Cephalcia属的个体内变体差异最高可达6.6%。这些差异通常超过了常用于标记潜在隐存种的2%阈值。系统发育树显示,来自同一个体的不同变体经常散布在不同的进化枝中,使得原本基于条形码的物种聚类变得多系或并系,进一步加剧了利用COI进行物种鉴定的困难。
个体内变体的非同义与同义替换比率
对最严格过滤数据集中个体内变体的dN/dS分析表明,大多数变体经历了强烈的纯化选择。96%的成对比较(589对中的567对)的dN/dS比率低于0.5,其中71%低于0.1。仅有约1%的比较(8对)比率高于0.9,表明这些变体可能是假基因。这暗示大部分观察到的、看似功能完整的个体内变体在近期仍受到功能约束。
讨论
本研究首次基于大规模高通量测序数据集,系统揭示了锯蜂中普遍存在的全长mtCOI DNA条形码个体内多态现象。尽管这可能是由测序误差或未识别的污染导致,但严格的过滤流程和独立的验证研究(如Prous等人的纳米孔测序数据)支持了观察结果的真实性。
对于这些看似功能完整的个体内变体的生物学解释,主要有两种可能:核基因组中线粒体片段的插入(NUMTs)或异质性(同一细胞内存在多种mtDNA单倍型)。虽然通过生物信息学方法可以轻易识别出具有移码突变或终止密码子的NUMTs,但那些缺乏这些诊断特征的长NUMTs则难以与真正的线粒体异质性变体区分。本研究中,绝大多数个体内变体显示出较低的dN/dS值,表明其经历了纯化选择,这更支持它们是功能序列(或近期才失去功能的序列),而非典型的、积累有害突变的假基因。另一方面,异质性通常涉及较低的序列差异,但锯蜂中观察到的个体内变体差异有时高达6-8%,这与典型的异质性模式不符。有假说认为,亲本线粒体的渗漏可能随着父母本遗传差异的增加而增加(例如在种间杂交中),这或许能解释锯蜂中观察到的深分化异质性现象。
这一发现对DNA条形码和宏条形码研究具有重要意义。首先,它直接违反了“一个样本对应一个条形码”的基本假设,使得基于Sanger测序的传统条形码库构建面临挑战,因为混合信号会被误判为污染。其次,在宏条形码分析中,来自同一个体的不同条形码变体会被错误地计为不同的“操作分类单元”,从而导致物种丰富度的高估。例如,本研究中110个物种或种组,如果将其个体内变体视为来自不同个体,在3%的遗传距离阈值下,物种估计数会增加约45种。
为应对这一挑战,研究提出了两个具体建议:第一,DNA条形码工作应从桑格测序转向能够解析混合模板的单分子测序技术(如PacBio或Oxford Nanopore)。第二,在构建参考条形码库时,应将共扩增出的、看似功能完整的变体明确标记为“替代条形码”并纳入库中,以避免它们在元基因组数据集中产生“幽灵物种”信号。
结论
通过对数千个锯蜂标本进行高通量单分子测序,本研究发现单个锯蜂个体内普遍存在多种线粒体COI基因全长DNA条形码变体。这一现象的广泛存在,无论是源于异质性还是难以诊断的长NUMTs,都对锯蜂及相关类群的DNA条形码应用构成了独特挑战。研究结果强调了向单分子测序平台过渡的必要性,并为如何处理和整合此类个体内多态性数据到参考数据库提供了重要思路,对于未来大规模生物多样性基因组学计划的顺利实施具有指导意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有