半穿透型根结线虫(Tylenchulus semipenetrans)的全基因组测序及其线粒体基因组分析:这种属于根结线虫科(Tylenchulidae)的寄生虫是导致柑橘树生长缓慢的重要病原体

时间:2026年5月13日
来源:Phytopathology Research

编辑推荐:

摘要 Tylenchulus semipenetrans 被认为是对柑橘类植物最具破坏性的线虫害虫,对全球所有柑橘生产区域造成了严重损害。本研究利用 Illumina 和 Oxford Nanopore 技术对来自 Citrus grandis 根际的 T. semipene

广告
   X   

摘要
Tylenchulus semipenetrans 被认为是对柑橘类植物最具破坏性的线虫害虫,对全球所有柑橘生产区域造成了严重损害。本研究利用 Illumina 和 Oxford Nanopore 技术对来自 Citrus grandis 根际的 T. semipenetrans 进行了测序,获得了连续性较高的 68.9 Mb 的基因组组装(N50 = 670.6 kb)。基于 RNA-seq 数据的基因预测共注释出了 11,068 个蛋白质编码基因。这是首次对 Criconematoidea 总科进行的长读长基因组组装。共有 291 个基因被鉴定为水平基因转移(HGT)候选基因,其中 192 个来自细菌,66 个来自古菌,20 个来自其他真核生物,13 个来自 varidnaviria。我们发现了两个与昆虫相关的 GH5_2 纤维酶同源基因,但它们与其他线虫的纤维酶不同。GH18 凝胶酶基因 g7408.t1 被归类为一个早期分化的 Tylenchida 类群,这支持了它从共同祖先 Tylenchida 直接继承的结论。T. semipenetrans 的线粒体基因组长度为 23,157 bp,在线虫门中属于较大的基因组之一。该基因组中 56% 为非编码区域,蛋白质编码序列占比仅为 44%,但包含 12 个蛋白质编码基因(PCGs)、22 个转运 RNA(tRNAs)和 2 个核糖体 RNA(rRNAs)。该基因组突显了通过水平获取的 CAZymes(如 GH5 家族纤维酶)所驱动的进化适应,这些酶通过降解植物细胞壁促进了寄生虫的成功。

背景
柑橘线虫 Tylenchulus semipenetrans 属于 Tylenchulidae 科(Skarbilovich, 1947)和 Criconematoidea 总科(Taylor, 1936)。它是一种定居性的半内寄生虫,可导致柑橘植物逐渐衰退(O’Bannon 和 Esser 1985;Duncan 2005)。严重感染的柑橘树叶片变黄、树冠变薄,产量降低、果实品质下降,最终导致产量减少 10–30%(Verdejo-Lucas 和 McKenry 2004;Duncan 2005)。这种线虫广泛分布于柑橘种植区,并在中国造成了显著的经济损失(Liu 等人,2004, 2011a)。
T. semipenetrans 的宿主范围较窄,主要寄生于柑橘及其近缘物种如 Poncirus trifoliata(包括杂交种)。非芸香科的木本植物,如葡萄、橄榄和柿子(Inserra 等人,1994;Guan 等人,2020;Singh 等人,2021),以及中国冷杉(Cunninghamia lanceolata)也可能成为其宿主。T. semipenetrans 有三种生物型(柑橘型、Poncirus 型和地中海型),它们都以柑橘属植物为共同宿主,但在感染和繁殖能力上存在差异:Poncirus 型能在 Poncirus trifoliata 上繁殖但不能在橄榄上繁殖;柑橘型在 Poncirus trifoliata 上繁殖能力较弱但在橄榄上繁殖良好;而地中海型在 Poncirus trifoliata 上繁殖能力较弱且不能感染橄榄(Inserra 等人,1980;Verdejo-Lucas 1992)。尽管关于 T. semipenetrans 生物型在中国的分布数据尚不明确,但宿主偏好研究表明 Poncirus 型较为普遍(Liu 等人,2011a, b)。

线虫的基因组数据,尤其是基于长读长的基因组组装,目前仍然十分匮乏。Criconematoidea 总科代表了线虫门中独特的植物寄生线虫进化支系,包含 5 个科、32 个属和 764 个有效物种(Hodda 2022),然而迄今为止仅有四个基因组被测序,且没有一个基于长读长数据(Qing 等人,2025)。尽管有 Illumina 的短读长数据可用于 T. semipenetrans 的研究,但由于覆盖度较低,得到的基因组组装片段化严重,仅适用于系统发育分析(Qing 等人,2025)。
在这项研究中,我们首次生成了柑橘寄生线虫 T. semipenetrans 的参考基因组,这也是整个 Criconematoidea 总科的首个全基因组组装。该基因组采用混合方法组装,结合了 Illumina 的短读长数据和 Nanopore 的长读长数据,并利用转录组(RNA-seq)数据来预测蛋白质编码基因。随后我们注释了基因功能并识别了潜在的水平基因转移(HGT)事件,同时还组装并分析了该物种的线粒体基因组。

结果
从 Citrus grandis (L.) Osbeck cv. Sanhongmiyou 根际土壤中提取的线虫在大量感染时会导致严重损害,表现为根系生长受阻、腐烂以及叶片黄化、变小(图 1)。使用 Illumina 和 Nanopore 数据进行的基因组组装产生了 176 个 contigs,总长度为 68.9 Mb(NCBI Bio-Project: PRJNA1278943),N50 为 670.6 kb,最大长度为 7443.7 kb(表 1)。k-mer 覆盖率分析表明 T. semipenetrans 为二倍体(图 2a),基因组大小为 61 Mb,重复率为 49.2%,杂合率为 8.83%(图 2b)。基因组中的污染程度较低。共生成了 68.9 Mb 的 contigs,其中 66 Mb(95.8%)被鉴定为线虫基因组。其余 contigs 主要包含节肢动物(1.6 Mb)、支原体(0.41 Mb)和脊索动物(0.22 Mb)(图 2c)。使用 nematoda_odb10 数据库进行的 BUSCO 分析显示,基因组组装的完整性为 49.7%,鉴定出 1515 个单拷贝 BUSCOs。基因组重复率为 1.3%(42 个重复基因)(图 2d)。重复序列占组装基因组的约 15.74%(10.8 Mb),其中散在重复序列最为常见(占基因组的 14.13%)(表 1)。共预测出 11,068 个蛋白质编码基因,平均每个基因长度为 3999 bp,每个外显子 139 bp,每个内含子 243 bp,平均每个基因含有 14 个外显子。

图 1
图 1 描述了受 T. semipenetrans 感染的柑橘症状及线虫的形态:a 柑橘树出现与线虫感染相关的衰退症状;b 土壤中受感染柑橘根系的根系,特征为根系缩短和增厚;c、d 染色的柑橘根系,用于观察 T. semipenetrans 雌性的后端结构;e T. semipenetrans 的第二阶段幼虫。

表 1
表 1 提供了 T. semipenetrans 基因组的详细信息。

图 2
图 2 描述了基因组组装的完整性评估、倍性估计、污染分析和完整性评估结果。

基因功能注释
共有 4275 个基因被注释到 Gene Ontology (GO) 数据库中(图 3a,附加文件 1:表 S1)。这些基因分别被归类到生物过程(BP)、细胞组分(CC)和分子功能(MF)三个功能组中。排名前三的功能组分别是细胞过程(3727 个基因)、生物调控(2696 个基因)和多细胞生物过程(2666 个基因)。3888 个基因被注释到细胞解剖结构中,1785 个基因被注释到细胞组分中的蛋白质复合体中。主要的功能类别包括结合蛋白(2622 个基因)、催化活性蛋白(1754 个基因)和转运蛋白(335 个基因)。Kyoto Encyclopedia of Genes and Genomes (KEGG) 数据库将 2951 个基因注释到特定通路中(图 3b,附加文件 2:表 S2),关键通路包括代谢、遗传信息处理的翻译、环境信息处理的信号转导、细胞过程的运输和分解代谢以及生物系统的内分泌系统。

图 3
图 3 显示了预测基因的功能注释结果。

与线虫生存和寄生相关的基因进一步分析显示,有 134 种分泌蛋白,这些蛋白具有信号肽但缺乏跨膜结构。对这些分泌蛋白的 KEGG 通路分析显示,其富集模式与整个基因集相似(图 3c,附加文件 3:表 S3)。我们发现了 105 个 G 蛋白偶联受体(GPCR)基因(附加文件 4:表 S4),其数量远低于秀丽隐杆线虫(Caenorhabditis elegans),但高于根结线虫(Meloidogyne incognita 和 M. enterolobii)。碳水化合物活性酶(CAZymes)家族包含 421 个基因,具体分布如下:糖基转移酶(GTs,222 个基因)、糖苷水解酶(GHs,160 个基因)、辅助活性蛋白(AA,26 个基因)和多糖裂解酶(CEs,11 个基因)(图 4a)。

图 4
图 4 分析了碳水化合物活性酶和潜在的水平基因转移(HGT)基因。

T. semipenetrans 中的潜在水平基因转移
初步筛选发现了 291 个 HGT 候选基因,其中 192 个来自细菌,66 个来自古菌,20 个来自真核生物,13 个来自 varidnaviruses(图 4b)。T. semipenetrans 的 GH5 家族基因分为两个不同的支系(图 4c)。在一个支系中,T. semipenetrans 编码了两个纤维酶同源基因(GH5_2 家族):g514.t1 和 g3909.t1。系统发育分析显示,这两个 GH5_2 基因位于一个昆虫支系的基部,而非与 PPNs(植物寄生线虫)同属一个支系。T. semipenetrans 的 GH5_54 基因形成了一个独立于 GH5_2 支系的支系,并与细菌(如 Clostridium 和 Paenibacillus)归为一类。T. semipenetrans 的 GH18 家族位于一个得到良好支持的线虫支系中(BS = 94),与其他 Tylenchida(如 Meloidogyne、Heterodera 和 Globodera)同属一个支系,但与 Aphelenchus 不同(图 4d)。GH18 基因 g8171.t1 和 g659.t1 与其他已知线虫基因不同,但与细菌基因更为接近。恢复的 GH5 和 GH18 基因的结构显示它们都含有内含子,且两个 GH5_2 同源基因在内含子/外显子排列上存在差异(图 4e, f)。

线粒体基因组和系统发育
T. semipenetrans 的完整线粒体基因组长度为 23,157 bp(GenBank: PV926160;图 5)。核苷酸组成中 A 和 T 占比较高,占 84.63%。GC 偏斜度((G − C)/(G + C) 和 AT 偏斜度((A − T) / (A + T))分别为 0.0958 和 −0.1473。共鉴定出 12 个蛋白质编码基因(PCGs)、22 个转运 RNA(tRNAs)和 2 个核糖体 RNA(rRNAs)(表 2)。PCGs 包含 10,023 个核苷酸残基,组成如下:A = 3269(32.61%),T = 5415(54.03%),C = 545(5.44%),G = 794(7.92%)。PCGs 中 A 和 T 的含量占比为 86.64%。其中最长的两个基因是 nad5(1470 bp)和 cox1(1545 bp),最短的两个基因是 nad4L(231 bp)和 nad3(351 bp)。鉴定出四个非编码区域(NCRs):第一个位于 trnW 和 nad6 之间(NCR1,790 bp),第二个位于 trnL 和 trnT 之间(NCR2,784 bp),第三个位于 trnQ 和 trnH 之间(NCR3,1682 bp),第四个位于 trnI 和 trnL1 之间(NCR4,3114 bp)。系统发育分析(图 6)将 T. semipenetrans 放置在其他植物寄生线虫的基部,形成了一个得到良好支持的支系(bootstrap = 100),包括 Heterodera glycines、Globodera ellingtonae、Radopholus similis、M. chitwoodi 和 Pratylenchus vulnus。

图 5
图 5 显示了 T. semipenetrans 线粒体 DNA 的 circular 基因组图谱,标注了 12 个蛋白质编码基因(PCGs)、2 个核糖体 RNA 基因(rrnS(12S 核糖体 RNA)和 rrnL(16S 核糖体 RNA)以及 22 个转运 RNA 基因(tRNAs)。内圈显示了基因组中的GC(鸟嘌呤-胞嘧啶)含量。表2:T. semipenetrans的线粒体基因组组织结构。全尺寸表格。图6:此图像的替代文本可能是使用人工智能生成的。全尺寸图像。基于线粒体基因组中的12个蛋白质编码基因推断出的最大似然系统发育树。节点处的自举值已给出。

讨论:尽管已经描述了超过4100种植物寄生线虫(PPNs)(Nicol等人,2011年),但只有属于13个属的37个物种的基因组序列可以在美国国家生物技术信息中心(NCBI)中找到(2025年6月访问,查询Nematoda或txid 6231)。其中,根结线虫属Meloidogyne最为人所知,有10个物种的基因组可用,其次是胞囊线虫属Heterodera和Globodera,分别有9个和3个物种的基因组可用。此外,其他属的物种也有测序基因组:Ditylenchus(3个物种)、Bursaphelenchus(2个物种)、Aphelenchoides(2个物种)、Hoplolaimus(2个物种)以及Radopholus、Pratylenchus、Anguina、Rotylenchus、Rotylenchulus和Subanguina(每个物种1个)。在本研究中,我们首次对柑橘线虫T. semipenetrans进行了基因组分析。T. semipenetrans组装的68.9 Mb基因组大小与其他小基因组PPNs相当,例如Aphelenchoides besseyi(50.3 Mb;Ji等人,2023年)和Bursaphelenchus xylophilus(78.3 Mb;Dayi等人,2020年)。然而,它比其他PPNs的基因组要小得多,例如M. incognita(122 Mb;Szitenberg等人,2017年)、M. enterolobii(163 Mb;Szitenberg等人,2017年)、自由生活的模式线虫C. elegans(100.3 Mb;Stein,2001年)以及动物寄生线虫如Necator americanus(244 Mb;Tang等人,2014年)和Ascaris lumbricoides(317 Mb;Coghlan等人,2019年)(附件4:表S4)。使用nematoda_odb10数据库进行的BUSCO分析表明,基因组组装的完整性为中等(49.7%),有1493个BUSCO缺失。这一发现与nematoda_odb10数据库中植物寄生线虫的代表性不足一致(Blaxter和Koutsovoulos,2015年;Howe等人,2017年;Masonbrink等人,2021年)。尽管如此,当前的组装为解释这一类群的基因组质量提供了有价值的框架(Masonbrink等人,2021年)。线虫中通常较低的BUSCO值是由于它们的基因组特征不同,而不是组装质量差。先前的研究也报告了类似的低完整性分数,即使是染色体级别的组装也是如此:G. pallida(Cotton等人,2014年)为46.7%,R. similis(Wram等人,2019年)为59.5–60.4%,H. glycines(Masonbrink等人,2021年)为55.6%,Meloidogyne(Dai等人,2023年)为50.6–51.4%,D. destructor(Yang等人,2025年)为73.8%。

根据杂合度水平,物种基因组可以分为两类:微杂合基因组(0.5% < 杂合度率 < 0.8%)和高杂合基因组(杂合度率 > 0.8%)(Huang等人,2009年)。T. semipenetrans的基因组杂合度为8.83%,属于后者。高杂合基因组对从头组装是一个重大挑战。传统的组装工具会将杂合位点合并为单一共识序列,常常导致片段化和错误的结果。一个关键问题是将等位基因变异误认为是不同的旁系基因,这会阻止contig的连接并导致严重的片段化(Kajitani等人,2014年;Marrano等人,2020年)。人为包含两种单倍型会夸大基因组大小和重复率(Vurture等人,2017年;Zhang等人,2012年),而任意的等位基因选择可能会产生嵌合马赛克contig,从而错误地表示真实的单倍型(Koren等人,2017年)。这些问题共同降低了组装的完整性,对contig N50和BUSCO分数等指标产生负面影响(Simão等人,2015年),并使下游的基因组分析变得复杂。由于T. semipenetrans是一种专性植物寄生虫,无法在无菌条件下培养,我们的测序依赖于从单株柑橘植物的根际土壤中收集的种群。因此,所得基因组固有的高杂合度可能影响了组装质量,这是本研究的一个关键挑战和限制。

CAZymes催化碳水化合物与非碳水化合物之间的糖苷键的降解,在包括细菌、植物、真菌和线虫在内的多种生物中都有发现(Cantarel等人,2009年)。在PPNs中,CAZymes通过分解植物来源的简单和复杂碳水化合物(如葡萄糖和蔗糖)来促进植物寄生,这些碳水化合物可以作为PPNs的潜在营养来源。许多PPNs中的CAZyme基因被认为是从细菌或真菌水平获得的(Haegeman等人,2011年)。T. semipenetrans中的CAZyme数量(421个)少于其他PPNs(例如,M. incognita中有573个,M. enterolobii中有635个,G. rostochiensis中有652个),自由生活的C. elegans中有949个,以及动物寄生线虫如N. americanus中有507个)。CAZyme数量的减少与其较小的整体基因组大小相关,因为T. semipenetrans中的CAZyme基因比例高于根结线虫和胞囊线虫(3.80% vs 2.15–3.65%),后者的基因组较大。相比之下,这一比例略低于松木线虫B. xylophilus(4.02%),其基因组大小也相似,为78.3 Mb(Dayi等人,2020年)。属于糖苷水解酶家族5(GHF5)的纤维素酶已在多种PPNs中被记录到,包括Meloidogyne物种(Mitreva-Dautova等人,2006年)、Heterodera(Gao等人,2004年)、Globodera(Eves-van Den Akker等人,2016年)、Ditylenchus(Kyndt等人,2008年;Peng等人,2009年)、Pratylenchus(Liu等人,2025年)、Radopholus(Mathew和Opperman,2019年)以及两种Aphelenchoidea物种(Karim等人,2009年)。在T. semipenetrans中,我们鉴定出两个GH5_2旁系基因。系统发育分析将它们置于一个单一起源群中,与其他线虫GH5_2同源基因关系较远,但与昆虫序列关系密切。重要的是,这两个基因都是从RNA-seq数据中获得的,排除了随机昆虫污染的可能性。这种独特的系统发育位置表明T. semipenetrans独立水平获得了GH5_2,与其他Tylenchida线虫的获得方式不同。相反,GH5_54基因在系统发育上嵌套在一个细菌起源群中,表明可能是通过HGT从细菌供体获得的。需要对该基因进行全面的功能表征,以阐明其在线虫生理学中的起源和生物学作用。GH18几丁质酶家族在多种分类单元中广泛分布,在组织降解、营养获取、宿主入侵、致病性和免疫调节等过程中发挥关键作用(Chen等人,2020年)。我们的系统发育重建将T. semipenetrans的GH18基因g7408.t1置于一个早期分化的Tylenchida线虫特有起源群中。这一拓扑结构与T. semipenetrans已建立的系统发育位置一致(Qing等人,2025年),支持该基因是从共同的Tylenchida祖先垂直继承的。T. semipenetrans的基因组包含291个候选HGT基因,这一数量远多于M. incognita(67个)和G. pallida(47个)(Abad等人,2008年;Cotton等人,2014年)。然而,这种明显的HGT事件丰富性可能反映了识别方法上的潜在偏差。目前的方法主要依赖于序列比对算法,将基因分配给序列相似度最高的分类群。因此,HGT的检测高度依赖于参考数据库的组成和质量。例如,参考数据库或基因组数据中的污染可能导致错误的HGT分配(Koutsovoulos等人,2016年)。此外,某些古菌基因的高度保守性可能会引入解释偏差。一个起源于古菌并通过细菌中间体转移到线虫的基因可能被错误地报告为直接的古菌到线虫的转移,因为其在数据库中的最强匹配是古菌序列(Ku和Martin,2016年)。这种进化途径因此可能导致对远缘分类单元的直接HGT事件的过度估计。

T. semipenetrans的线粒体基因组显示出与其他线虫一致的基因组成,包括PCGs、tRNAs和rRNAs,并且缺乏atp8基因。其明显的A + T偏倚(77.81%)处于已记录的线虫线粒体基因组范围内(43–87%),例如Panagrolaimus rigidus(43%)和M. exigua(87%)(Gendron等人,2024年)。线虫线粒体基因组的大小通常在12到22 kb之间(Kern等人,2020年),其中Hoplolaimus columbus(25,228 bp)(Ma等人,2020年)和Rotylenchulus reniformis(24,572 bp)(GenBank: CM003310.1)是已知最大的两个单环线粒体基因组。尽管一些Globodera物种具有超过40 kb的多部分线粒体基因组(由5个亚基因组组成,每个7.4–9.3 kb;Yang等人,2024年),但此处报告的T. semipenetrans线粒体基因组是一个23,157 bp的单环分子。其大小比H. columbus小2071 bp,几乎是匕首线虫和针线虫线粒体基因组长度的两倍(Palomares-Rius等人,2017年),使其成为已知第三大的PPN线粒体基因组。T. semipenetrans线粒体基因组中的PCGs长度为10,281 bp,仅占总长度的44%。这种大小扩展主要归因于广泛的非编码区域(NCRs)。长NCRs(> 4000 bp)是PPN线粒体基因组的常见特征,如在P. vulnus(6847 bp)(Sultana等人,2013年)、M. chitwoodi(5404 bp)(Humphreys-Pereira和Elling,2014年)和M. incognita(4097 bp)(Humphreys-Pereira和Elling,2014年)中观察到的那样。

结论:我们首次为Criconematoidea超科(T. semipenetrans,68.9 Mb)提供了参考基因组,揭示了广泛的HGT现象,包括291个获得的基因。这些基因中,192个来自细菌,66个来自古菌,20个来自真核生物,13个来自varidnavirial。值得注意的是,我们鉴定出两个来自昆虫的GH5_2纤维素酶基因——这是Tylenchida中独特的获得,可能增强了植物寄生能力。相比之下,GH18基因g7408.t1几丁质酶是垂直继承的,突显了不同的进化路径。线粒体基因组(23,157 bp)表现出异常高的非编码含量(56%)。这些发现强调了HGT介导的适应是T. semipenetrans致病性的关键因素,为线虫控制策略提供了新的目标。

**方法:**
**采样和线虫提取:**从中国福建省永泰市的一棵8年生的柚子树(C. grandis,嫁接在柚子砧木上)的根际土壤中收集了一个根际土壤核心样本(坐标:25°50′08.8″N,119°09′54.2″E)。使用Oostenbrink方法(Oostenbrink,1960年)提取线虫,得到的种群主要由T. semipenetrans J2s组成。用针手动挑选出活的J2s并转移到无菌水中。共收集了大约52,000个个体,其中3000个用无菌水冲洗后用于DNA和RNA提取。

**基因组测序:**使用CTAB方法(Porebski等人,1997年)提取基因组DNA。通过凝胶电泳和Qubit 3.0荧光计(Thermo Fisher Scientific,美国马萨诸塞州沃尔瑟姆)检查质量。使用Nextera DNA Flex Library Prep Kit(Illumina,美国圣地亚哥)制备Illumina文库,并在Illumina Novaseq 6000平台上进行测序。对于Oxford Nanopore Technology(ONT)测序,使用SQK-LSK110连接试剂盒制备文库,并在PromethION测序仪(Oxford Nanopore Technologies,英国牛津)上进行测序。使用TransZol Up Plus RNA Kit(TransGen Biotech)进行总RNA提取,并使用NEBNext Ultra II RNA Library Prep Kit(Illumina,美国圣地亚哥)制备文库,在Illumina Novaseq 6000平台上进行测序。

**基因组组装和质量评估:**使用fastp v0.22.0(Chen,2023年)过滤含有未知核苷酸(Ns)或超过20%低质量碱基的读段。使用Jellyfish v2.2.10(Marçais和Kingsford,2011年)和GenomeScope 2.0(Ranallo-Benavidez等人,2020年)中的k-mer频率方法评估基因组大小、重复性和杂合度率。使用Smudgeplot v0.2.5_RN(Ranallo-Benavidez等人,2020年)估计并绘制倍性。ONT长读段在NextDenovo(Hu等人,2024a)中组装,并使用NextPolish2(Hu等人,2024b)进行校正。使用Quast(Gurevich等人,2013年)检查组装质量,并使用BlobTools v4.4.0(Laetsch和Blaxter,2017年)和NCBI nt数据库检查可能的污染。使用nematoda_odb10数据库和BUSCO v5.8.0(Manni等人,2021年)评估组装的完整性。

**基因预测和功能注释:**使用RepeatModeler v2.0.5(Flynn等人,2020年)识别重复元件,并使用RepeatMasker(Tarailo-Graovac和Chen,2009年)进行屏蔽。使用Braker(Hoff等人,2016年)预测基因。使用fastp v0.22.0(Chen,2023年)过滤原始RNA-seq读段以获得高质量序列(干净数据)。使用Hisat2(Kim等人,2015年)将干净数据与基因组组装对齐,并使用GeneMark-ET(Lomsadze等人,2014年)和Augustus(Stanke等人,2006年)进行基因结构注释。使用eggNOG-mapper(Cantalapiedra等人,2021年)根据GO和KEGG数据库对获得的基因进行注释。使用SignalP 6.0(Teufel等人,2022年)和TMHMM(Krogh等人,2001年)分别预测蛋白质序列的信号肽和跨膜结构域。仅考虑那些具有信号肽但没有跨膜结构域的基因。InterProScan 5(Jones等人,2014年)与InterPro数据库(Blum等人,2025年)结合使用,用于识别蛋白质结构域,特别是GPCR结构域。CAZymes(包括GHs、GTs、PLs、CEs和AAAs)通过使用HMMER、DIAMOND和dbCAN-sub将查询蛋白质序列与CAZy数据库(Drula等人,2022年)进行比对,利用dbCAN3(Zheng等人,2023年)进行注释。通过使用BLASTp在NCBI非冗余数据库中搜索,重建了T. semipenetrans中GHs的系统发育树以及来自其他物种的同源物。GH5和GH18家族的基因使用MAFFT(Katoh和Standley,2013年)进行了比对。ModelFinder v2.2.0(Kalyaanamoorthy等人,2017年)根据BIC标准选择了最佳拟合模型。系统发育分析在IQ-TREE(Nguyen等人,2015年)中进行,GH5家族的基因采用WAG+R4模型,GH18家族的基因采用WAG+G4模型,进行了1000次标准自助法重复实验。

**HGT基因的鉴定**
通过使用Alienness Index(AI)(Rancurel等人,2017年)来估计基因通过水平转移(HGT)获得的概率。我们的供体组来自NCBI nr数据库中的非后生动物,受体为后生动物(不包括线虫),以防止自我比对。AI是通过计算DIAMOND(Buchfink等人,2015年)blastx最佳匹配结果之间的e值来估计的。AI值大于30且含有内含子的基因被视为候选HGT基因。

**线粒体基因组的组装、注释和系统发育**
线粒体基因组是从ONT长读长组装中提取的。使用SeqKit 2.6.1(Shen等人,2016年)筛选了长度在10,000到25,000 bp之间的contigs。这些contigs随后在NCBI nt中进行BLAST比对,选择身份最高的序列作为线粒体基因组。蛋白质编码基因(PCGs)使用MITOS2(Bernt等人,2013年)进行预测,并通过与其他线虫的PCGs比对进一步手动修订。获得的基因组在Proksee(Grant等人,2023年)中进行了可视化。系统发育树与其他32种线虫物种一起重建。12个PCGs使用MAFFT(Katoh和Standley,2013年)进行比对,在MACSE版本2(Ranwez等人,2018年)中优化,并在Phylosuite(Xiang等人,2023年)中拼接。矩阵使用PartitionFinder2(Lanfear等人,2017年)进行划分,并在IQ-TREE(Nguyen等人,2015年)中采用GTR+F+I+G4划分模型进行了分析,进行了10,000次超快(Minh等人,2013年)自助法重复实验。

生物通微信公众号
微信
新浪微博


生物通 版权所有