SEA 4.0:超级增强子知识库的重大升级与功能拓展

时间:2025年11月1日
来源:Nucleic Acids Research

编辑推荐:

本研究针对超级增强子(SE)研究领域存在的数据分散、注释不全面、缺乏跨物种比较和肿瘤特异性分析工具等问题,开发了SEA version 4.0平台。研究人员整合了截至2024年12月的多组学数据,基于H3K27ac、BRD4、p300、Med1及新增的H3K4me1等5种标志物,在14个物种的543种细胞/组织中系统鉴定了496,071个SE和29,584,078个增强子。该平台提供了全面的基因组注释、功能富集分析、基于香农熵的SE特异性鉴定、交互式调控网络构建以及利用12种癌症scRNA-seq数据的肿瘤特异性SE探测工具。SEA 4.0通过标准化流程显著提升了数据质量和比较可靠性,为解码SE在发育和疾病中的机制提供了不可或缺的资源。

广告
   X   

在基因组调控的复杂世界中,超级增强子(Super-Enhancers, SEs)如同指挥细胞身份和疾病发展的“大师开关”。这些特殊的基因组区域能够通过相分离形成的凝聚体,将经典增强子和辅助元件整合在一起,产生比典型增强子强10-100倍的转录激活能力。然而,当这些“大师开关”失调时,就会导致严重的后果:在肝癌中,恶性细胞劫持SEs异常激活MYC等癌基因;在超过60%的实体瘤中,致癌SE的形成会启动全新的信号级联反应;而82%的骨骼肌发育不良病例则与SE扰动导致的肌源性分化受阻有关。这些发现确立了SEs作为“疾病开关”元素的重要地位。
尽管SE研究意义重大,但该领域面临着诸多挑战。传统的SE识别主要依赖H3K27ac、BRD4、p300和Med1等标志物,但随着H3K4me1等新型表观遗传标记的加入,数据量和复杂性急剧增加。不同研究平台产生的数据存在碎片化和批次效应,使得跨研究比较变得困难。此外,现有的SE数据库各具特色但覆盖面有限:dbSUPER主要提供人和小鼠SE的基本目录;SEdb专注于人类SE的全面遗传和表观遗传注释;EnhFFL专注于人类胎儿发育时间序列分析;而CenhANCER则集中于癌细胞系的SE数据。研究人员迫切需要一個能够整合多物种、多组学数据,并提供先进分析工具的統一平台。
为了解决这些问题,来自哈尔滨工业大学、齐齐哈尔医学院和哈尔滨医科大学第四医院的研究团队在《Nucleic Acids Research》上发表了SEA version 4.0,这是超级增强子存档(Super-Enhancer Archive)的一次重大升级。基于SEA 3.0的基础,新版本建立了标准化的计算流程,整合了包括新加入的H3K4me1在内的五种关键组蛋白标记, across 14个物种的系统性分析。该平台不仅存储了496,071个SEs和29,584,078个增强器,还提供了广泛的基因组注释和功能分析工具,成为解码SE在发育和疾病中机制的不可或缺资源。
主要技术方法
研究人员从ENCODE、GEO等基因组数据库中整合了2020年1月至2024年12月的公开原始数据。使用Bowtie2将原始测序读数比对到相应参考基因组,MACS2用于从比对读数中调用推定的增强子区域,ROSE算法构建潜在SEs。采用严格过滤策略,包括70%基因组重叠阈值合并、保留最高信号强度区域、排除长度小于1kb的SEs。单细胞数据分析使用Seurat包进行,利用Harmony进行批次校正,SingleR包进行细胞类型注释。整合了56个ATAC-seq数据集、HHCDB数据库的异染色质区域信息以及CRISPR/Cas9靶位点注释。
SEA version 4.0的设计与扩展
SEA version 4.0建立了精细化的计算框架,通过标准化流程显著提升了SE识别的准确性。与SEA 3.0相比,新版本在多个维度实现了显著扩展:物种从11个增加到14个,识别标志物从4个增加到5个,细胞类型/组织/疾病从266个增加到543个,SE数量从164,402个增加到496,071个,增强子数量从3,361,785个增加到29,584,078个。特别是转录因子结合位点(TFBS)的数量从1,104,229个大幅增加到1,218,927个,增长了1103.87倍。
平台采用五模块架构:搜索模块支持通过基因组位置、基因关联或细胞类型快速访问SEs和增强子;SEA Browser模块支持17个参考基因组的多轨道可视化;分析模块提供GO/KEGG富集、SE区域特异性分析和TF富集等功能;工具模块用于构建SE调控网络和识别肿瘤特异性SEs;下载模块提供所有数据的获取和BED格式转换。
有意义的SE注释
SEA version 4.0实现了SE的全面功能注释框架,整合了多模式基因组数据。该注释系统包括转录因子结合位点预测、人类异染色质区域映射、GO/KEGG功能富集分析、SpCas9靶位点注释以及染色质可及性分析。特别值得注意的是,平台引入了基于香农熵的SE细胞类型特异性量化方法,并建立了SE活性元素评分系统。
SE活性元素评分公式综合了三个基因组特征:组成增强子的归一化峰值信号、染色质可及性区域信号以及TFBS的聚集富集分数。这一评分系统为识别上下文特异性SEs提供了量化依据,有助于发现调控细胞身份和疾病发病机制的关键基因。
解读SE生物学意义的专业工具
SEA version 4.0开发了两个特殊工具来挖掘SE的关键生物学作用。调控交互网络工具支持通过输入基因/转录因子/SE标识符来交互式可视化SE调控网络(人类/小鼠),构建直观的一阶邻居交互网络,图形化映射查询实体与其相关增强子、SEs和转录因子之间的连接。
肿瘤特异性SE工具专门针对常见人类癌症设计,整合了12种癌症类型及其对应正常组织的scRNA-seq数据,覆盖224个样本的401,815个单个细胞。通过严格的细胞过滤标准和Harmony-based整合,显著减少了患者特异性批次效应,能够识别细胞类型特异性SE-linked基因,为理解肿瘤生物学提供了强大的单细胞视角。
研究结论与意义
SEA version 4.0通过三个关键优化系统解决了SE研究中的数据一致性问题:使用70%基因组重叠阈值整合多因子表观遗传数据,保留信号强度最高的SE区域,以及过滤掉短于1kb的SEs。这些优化使假阳性识别相比SEA v3.0减少了41%,并发现CUT&Tag衍生的SEs比ChIP-seq鉴定的峰值宽度窄32%,这归因于CUT&Tag的优异分辨率。
该平台的肿瘤特异性SE探测器直接解决了基于批量测序平台的局限性,能够解析肿瘤内SE异质性。识别细胞类型特异性SEs为了解癌症机制提供了强大视角,因为这些调控元件在不同的细胞亚群(如癌症干细胞或免疫细胞)中与关键临床表型(如耐药性、不良预后和转移潜力)直接相关。
SEA version 4.0建立了目前最广泛的SE生物学解码集成平台,支持基因组和跨物种比较,揭示复杂的基因组相互作用。展望未来,SEA计划整合组织单细胞水平的多组学信息,包括空间转录组学和单细胞表观基因组图谱,构建更精确、动态的细胞水平SE活性图谱,进一步破译发育和疾病中的基因调控机制。该平台将继续作为全球研究界的免费重要资源,推动超级增强子研究领域的深入发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有