研究背景
木质部小杆菌(Xylella fastidiosa,简称Xf)属于 Lysobacteraceae(同义名:Xanthomonadaceae)细菌,是全球农业作物、生态系统和观赏景观的严重威胁。它能引发多种植物疾病,像葡萄的 Pierce 病、蓝莓的细菌性叶焦病等。Xf以往局限于美洲,近年来却扩散到欧洲和亚洲,可能是受感染植物材料进口的影响。目前,大多数Xf菌株主要分为X. fastidiosa subsp. fastidiosa、pauca和multiplex三个亚种,还存在另外两个北美本土亚种X. fastidiosa subsp. sandyi和morus。已知它能感染 712 种植物,感染症状因宿主植物而异。该细菌仅在植物宿主的木质部导管和昆虫媒介的口器中定植,由取食木质部汁液的半翅目昆虫传播。
由于对Xf进行实验毒力评估耗时久且技术难度大,目前仅有少数研究测试了不同遗传背景菌株的宿主范围。现有研究表明多数菌株具有宿主特异性,但具体分子机制不明。在许多细菌 - 宿主相互作用中,三型分泌系统(T3SS)分泌效应子与植物宿主的相互作用是宿主特异性的基础,但Xf缺乏 T3SS,因此难以仅依据基因组序列预测其宿主特异性。假基因是生物体中不再使用的基因的失活拷贝,常出现在基因组中。在动物病原体Salmonella enterica血清型中,宿主专化型血清型的假基因数量高于宿主泛化型,所以假基因被视为宿主专化菌的特征。此前研究还发现,木质部限制细菌中的假基因比兼性木质部定植菌更常见,而Xf的假基因数量相对较低,可能反映了其与宿主植物的古老关联。本研究旨在探究Xf菌株中假基因组成与宿主特异性的关系,通过识别在感染特定宿主菌株中仍具功能,而在不感染该宿主菌株中已假基因化的基因,来揭示宿主特异性的分子机制。
材料与方法
- 基因组数据:研究使用的菌株全基因组序列,一部分从 GenBank 下载,另一部分直接从作者处获取。这些基因组先经 Prokka 注释,再用 CheckM 评估质量。研究共纳入 151 个来自五个不同亚种的基因组,涵盖了从不同国家分离、源自不同宿主植物的菌株。由于多数Xf菌株宿主范围信息缺失,研究将分离宿主视为其唯一宿主。
- 假基因分析:利用开源软件 Pseudofinder 预测Xf基因组中的假基因,该软件采用基于参考的方法,以非冗余蛋白质数据库为参考,在基因水平详细检测假基因。分析时使用默认参数,将 GenBank 格式的Xf基因组和蛋白质序列数据库作为输入,输出文件包含假基因总数等信息。计算候选假基因百分比时,用假基因总数除以总基因数(完整基因数与候选假基因数之和)。Pseudofinder 还将假基因序列分为 “Truncated/Short”“Long/Run-on”“Fragmented”“Intergenic” 四类。此外,对模型菌株X. fastidiosa subsp. fastidiosa Temecula1,计算不同类型假基因的平均长度,并将其假基因列表与之前的 RNA-Seq 转录组数据进行交叉比对,用条件互惠最佳 BLAST(CRB-BLAST)筛选与转录序列相似度≥90% 的假基因序列。
- 系统发育分析:借助 Roary 获取所有菌株的核心基因组比对结果,进而构建系统发育树。使用 RAxML V8.2.11 基于广义时间可逆模型创建最大似然系统发育树,通过 1000 次自展重复评估节点支持度,利用交互式生命树(Interactive Tree of Life)进行树的可视化展示,并在树上添加各菌株假基因百分比信息。
- 不同宿主组与蓝莓菌株假基因比较:以蓝莓菌株为核心,将其与其他宿主组(葡萄、杏仁、橄榄等)的菌株进行假基因比较,旨在找出在蓝莓菌株中完整,而在其他宿主菌株中假基因化的基因,以此确定可能与蓝莓特异性相关的基因。先找出所有蓝莓菌株共有的完整基因序列并构建数据库,再用 CRB-BLAST 将非蓝莓宿主菌株的假基因序列与之比对,筛选出相似度≥90% 的假基因序列进一步分析。之后,创建不同宿主组内共享假基因序列的数据库,并确定不同宿主组间共享的假基因序列。
- 蓝莓有症状和无症状菌株比较:基于此前温室研究,确定在蓝莓上有症状和无症状的菌株。比较无症状菌株的假基因序列与有症状菌株的完整基因序列,并在 NCBI 上利用 AlmaEm3 参考基因组对结果序列进行注释,以识别在蓝莓菌株中可能具有宿主特异性作用的额外基因。
- 统计分析:使用 R 4.2.2 和 RStudio,借助 ggpubr 和 ggplot2 等软件包对总假基因百分比数据进行统计分析。先进行 Shapiro 正态性检验,因数据呈非参数分布,故采用 Kruskal-Wallis 检验,以 P < 0.05 为差异显著阈值,用成对 Wilcoxon 检验进行组间两两比较。对于不同类型假基因的统计分析,则使用 JMP Pro 17 软件。
研究结果
- 不同菌株假基因含量差异:Xf菌株基因组中假基因百分比在 17% - 46% 之间。X. fastidiosa subsp. fastidiosa多数菌株假基因比例集中在 17% - 19%,少数略高;X. fastidiosa subsp. multiplex多数菌株在 19% - 21%,部分菌株较高,其中 XF28_GILGRA274ext_TX(分离自向日葵)假基因百分比最高,达 46%。X. fastidiosa subsp. pauca、sandyi和morus的假基因比例分别在 18% - 24%、22% - 23% 和 21% - 22% 之间。
- 模型菌株 Temecula1 分析:对模型菌株X. fastidiosa subsp. fastidiosa Temecula1 的研究发现,不同类型假基因平均长度不同,长假基因最长(1936 bp),其次是片段化假基因(706 bp)、短假基因(616 bp),基因间假基因最短(224 bp)。通过与转录组数据比对,发现该菌株约 98% 的假基因未转录,但有 9 个(约 2%)假基因序列转录,其表达水平与其他基因相似,这些序列多属于 “假设蛋白” 类别,还有参与能量代谢、转运等功能的基因。
- 假基因百分比与亚种、宿主及分离国家的关系:X. fastidiosa subsp. sandyi的假基因中位数百分比最高,X. fastidiosa subsp. fastidiosa最低,不同亚种间假基因百分比存在显著差异。在宿主方面,杂草 / 野生宿主组假基因百分比最高,葡萄组最低,葡萄菌株与多个其他宿主组存在显著差异。从分离国家来看,巴西菌株假基因百分比显著高于意大利、西班牙和台湾的菌株,但与其他一些国家或地区的菌株差异不显著,美国菌株假基因比例范围较大且存在较多极端值。
- 假基因类型分布:在亚种、宿主和分离国家三个分类层面,基因间假基因的比例均最高。X. fastidiosa subsp. fastidiosa的基因间假基因比例最高,X. fastidiosa subsp. sandyi的短假基因最多,X. fastidiosa subsp. pauca的长假基因更丰富,X. fastidiosa subsp. multiplex的片段化假基因最多。在宿主组中,葡萄组基因间假基因占比最高,杂草 / 野生组片段化和短假基因比例最高,柑橘组长假基因最多。从国家层面看,台湾菌株基因间假基因百分比最高,法国菌株短和片段化假基因较多,墨西哥菌株长假基因相对较多。
- 蓝莓宿主特异性基因:在寻找与蓝莓宿主特异性相关的基因时,先确定在其他宿主菌株中假基因化,而在蓝莓菌株中完整的基因序列。在柑橘、咖啡等多个宿主组中发现了共享假基因序列,其中桑树组最多,李子组最少,葡萄组未发现。进一步分析不同宿主组间共享假基因序列,发现有 3 个序列在至少 3 个宿主对中共享,这些序列在 AlmaEm3 基因组注释中未被识别,但在其他菌株中有完整蛋白序列对应。另外,通过比较蓝莓有症状和无症状菌株的假基因序列,筛选出 4 个在无症状菌株中假基因化,而在有症状菌株中完整的序列,其中 Seq3 与之前发现的 SeqB 相同。
讨论
本研究认为Xf基因组中假基因的丰度可作为宿主范围和专化性的指标。与真核宿主建立密切关系或依赖的细菌更易出现假基因,随着时间推移,这些假基因可能从基因组中降解和消除,导致基因组减少。Xf部分菌株假基因化比例高达 45% - 46%,表明该病原体仍在经历显著的基因组减少以适应特定生态位。根据假基因含量和宿主范围,可将Xf的五个亚种分为宿主泛化型(X. fastidiosa subsp. fastidiosa、multiplex和pauca)和宿主专化型(X. fastidiosa subsp. morus和sandyi),这与 EFSA 2023 年公布的自然感染宿主植物物种数据库信息相符。不过,X. fastidiosa subsp. fastidiosa假基因数最少,但宿主植物种类与假基因数较高的X. fastidiosa subsp. pauca相似,推测未来可能会发现更多X. fastidiosa subsp. fastidiosa的宿主。
研究存在一些局限性,如基因组在亚种、宿主和分离国家等类别中的代表性不均衡,不同软件(如 PGAP 和 Pseudofinder)预测假基因存在差异,基因组质量也会影响假基因判断。此外,仅 Temecula1 菌株有转录组数据,限制了转录序列与假基因分析数据库的比较。虽多数假基因未转录,但有 9 个序列转录,可能是实验条件导致转录组数据偏差,也可能是 Pseudofinder 分类错误,这些转录假基因可能具有调控功能。
在不同类型假基因中,基因间假基因比例最高,但目前对不同类型假基因的进化意义了解甚少。杂草 / 野生宿主分离的菌株假基因比例高,表明对这些植物物种具有高宿主特异性,可能是因为在高度特化的生态位中,部分基因功能不再必要而失活。野生和杂草宿主作为无症状宿主,是病原体的自然储存库,可能导致病原体专化。相比之下,葡萄和杏仁分离菌株假基因比例低,说明它们可能具有感染多种宿主的能力。
从分离国家来看,美国和哥斯达黎加的菌株假基因数较低,可能与病原体 - 宿主长期关系有关,而欧洲菌株假基因比例高,可能是因为感染时间较近,仍在进化适应。巴西菌株假基因含量高于预期,具体原因尚待进一步研究。
通过比较蓝莓潜在宿主菌株的完整序列和其他宿主菌株的假基因序列,有助于发现可能导致蓝莓感染症状的基因。虽未发现葡萄菌株间共享的假基因序列,但不能排除地理隔离和宿主共享的影响。未来应进一步研究筛选出的序列在感染蓝莓菌株中的表达情况,并通过实验评估其功能,这对揭示Xf不同菌株宿主特异性的因素至关重要。
总之,本研究揭示了Xf假基因丰度与宿主特异性的潜在关系,基于假基因含量区分宿主专化型和泛化型菌株,有助于深入理解该病原体的行为。这不仅推动了对Xf的研究,也为未来改进作物监测和保护策略的转化研究奠定了基础。