在生命科学领域,作物的遗传奥秘一直是科研人员探索的重要方向。大麦作为一种在全球食品、饲料和饮品行业都有着重要地位的谷类作物,其适应能力强,为众多生物过程和产业提供了基础。然而,尽管此前的研究已经揭示了大麦基因组的一些遗传变异信息,但对于这些基因组多样性所带来的更广泛后果,尤其是在转录层面的影响,却知之甚少。“单参考偏差” 问题也一直困扰着科研人员,传统上使用单一参考基因组进行转录组分析,可能无法全面准确地反映转录本的真实情况。为了深入探究这些问题,来自国际大麦中心(International Barley Hub,IBH)/ 詹姆斯・赫顿研究所(James Hutton Institute,JHI)等多个研究机构的研究人员,开展了一项关于大麦泛转录组的研究。该研究成果发表在《Nature Genetics》杂志上,为我们理解大麦的遗传机制带来了新的曙光。
研究人员在此次研究中,运用了多种关键技术方法。首先是 RNA 测序(RNA-seq)和 PacBio Iso-seq 技术,用于获取不同组织的转录组数据。接着,通过构建基因型特异性参考转录数据集(GsRTDs),有效避免了单参考偏差问题。在此基础上,利用 Pan-genome Construction and Population Structure Variation Calling Pipeline(PSVCP)构建线性泛基因组框架,并整合 GsRTDs 创建泛转录组(PanBaRT20)。此外,还使用了加权相关网络分析(WGCNA)来研究基因共表达网络。
下面来详细看看研究结果:
- 构建大麦泛转录组:研究人员对代表大麦泛基因组 V1.0 的 20 个基因型的 5 种不同组织进行 RNA 测序和 PacBio Iso-seq。结果发现,“组织” 是转录本多样性的主要驱动因素。为避免单参考偏差,他们构建了 GsRTDs,其基因数量平均为 38,400 个,每个基因平均有 3.22 个转录本,比传统基因组注释更高。之后,研究人员整合 20 个参考大麦泛基因组构建线性泛基因组,并将 GsRTDs 的转录本映射到该框架上,创建了 PanBaRT20。PanBaRT20 包含 79,600 个基因和 582,000 个转录本,每个基因的转录本多样性达到 7.3 个。同时,根据基因在不同基因型中的出现情况,将基因分为核心基因、壳基因和云基因。核心基因主要与普遍的生物学功能相关,而壳基因和云基因则主要涉及生物和非生物胁迫响应123。
- GsRTDs 和 PanBaRT20 在转录组分析中的应用:研究表明,不同参考转录组会影响 RNA-seq 数据集的量化准确性。GsRTDs 在 RNA-seq 读段量化中表现最佳,PanBaRT20 次之,均优于单一常见参考转录组。此外,泛转录组数据还可用于对 20 个泛基因组组装进行基于证据的重新注释,增强了 V2.0 泛基因组的整体价值456。
- 转录丰度变化的驱动因素:PanBaRT20 显示每个基因的转录本数量显著增加,这与非冗余剪接位点的增加有关。多种因素会影响转录丰度,如可变剪接、基因存在 / 缺失(PAV)、拷贝数变异(CNV)、染色体倒位以及转录因子结合位点(TFBS)的变化等。例如,在某些基因中,可变剪接导致产生独特的基因型特异性转录本;一些基因的转录丰度与 CNV 相关;染色体 7H 上的 141 Mb 倒位影响了基因表达,且该区域与谷物相关性状有关;TFBS 的相似性对低变异系数(CV)基因的表达一致性有重要影响789。
- 比较基因表达和基因网络分析:通过 WGCNA 分析,研究人员构建了 20 个基因型特异性共表达网络,共鉴定出 738 个模块,并将其分为 6 个主要社区。模块与组织及相关生物过程存在明显关联,且核心直系同源基因在不同基因型间存在广泛的微调。同时,发现一些基因在不同基因型中的社区关联存在差异,表明存在功能多样化和基因型特异性转录反应101112。
- 大麦基因组参考品种 Morex 的基因表达图谱:研究人员利用公开的 Morex RNA-seq 数据集构建了新的 RTD(Mx-RTD),并与 GsRTDMorex合并。MDS 图显示组织和器官是转录变异的主要驱动因素,共表达分析揭示了 20 个独特的基因簇,具有组织、器官和条件特异性。此外,PanBaRT20 在报告基因型间转录本丰度变异方面具有优势,可与 Mx-RTD 结合使用以探索更广泛的组织 / 处理效应。研究人员还提供了 “MorexGeneAtlas”,方便研究人员进行转录本丰度分析1314。
- 探索赤霉素 2 - 氧化酶基因家族:研究人员以赤霉素 2 - 氧化酶(GA2ox)基因家族为例,展示了 PanBaRT20 和 MorexGeneAtlas 的价值。他们鉴定出 10 个 GA2ox 基因,其中 GA2ox7 和 GA2ox3 表达差异显著。通过对 RGT Planet 品种的敲除突变体进行田间试验,发现 ga2ox7 突变体产量、千粒重和淀粉含量降低,ga2ox3 突变体在水涝条件下农艺性能下降。这表明 GA2ox7 过表达可能提高产量和谷物品质,GA2ox3 过表达可能改善在挑战性气候条件下的农艺性能151617。
在研究结论与讨论部分,该研究通过构建大麦泛转录组和基因型特异性参考转录数据集,为解释物种范围内基因型多样性的转录组数据提供了有力工具。研究揭示了转录复杂性的多个层面,以及基因组变异对转录丰度的复杂影响,这些影响具有基因型依赖性。网络分析表明,核心转录组中基因的差异表达体现了功能冗余和内在弹性。此外,研究人员提供的大麦基因组参考品种 Morex 的 “基因表达图谱” 和 PanBaRT20,为生物学研究提供了重要资源,有助于深入探索大麦的遗传机制,推动作物遗传改良工作的开展,在农业领域具有重要的理论和实践意义。