SEA 4.0：超级增强子知识库的重大升级与功能拓展

时间：2025年11月1日

来源：Nucleic Acids Research

编辑推荐：

本研究针对超级增强子（SE）研究领域存在的数据分散、注释不全面、缺乏跨物种比较和肿瘤特异性分析工具等问题，开发了SEA version 4.0平台。研究人员整合了截至2024年12月的多组学数据，基于H3K27ac、BRD4、p300、Med1及新增的H3K4me1等5种标志物，在14个物种的543种细胞/组织中系统鉴定了496,071个SE和29,584,078个增强子。该平台提供了全面的基因组注释、功能富集分析、基于香农熵的SE特异性鉴定、交互式调控网络构建以及利用12种癌症scRNA-seq数据的肿瘤特异性SE探测工具。SEA 4.0通过标准化流程显著提升了数据质量和比较可靠性，为解码SE在发育和疾病中的机制提供了不可或缺的资源。

在基因组调控的复杂世界中，超级增强子（Super-Enhancers, SEs）如同指挥细胞身份和疾病发展的“大师开关”。这些特殊的基因组区域能够通过相分离形成的凝聚体，将经典增强子和辅助元件整合在一起，产生比典型增强子强10-100倍的转录激活能力。然而，当这些“大师开关”失调时，就会导致严重的后果：在肝癌中，恶性细胞劫持SEs异常激活MYC等癌基因；在超过60%的实体瘤中，致癌SE的形成会启动全新的信号级联反应；而82%的骨骼肌发育不良病例则与SE扰动导致的肌源性分化受阻有关。这些发现确立了SEs作为“疾病开关”元素的重要地位。

尽管SE研究意义重大，但该领域面临着诸多挑战。传统的SE识别主要依赖H3K27ac、BRD4、p300和Med1等标志物，但随着H3K4me1等新型表观遗传标记的加入，数据量和复杂性急剧增加。不同研究平台产生的数据存在碎片化和批次效应，使得跨研究比较变得困难。此外，现有的SE数据库各具特色但覆盖面有限：dbSUPER主要提供人和小鼠SE的基本目录；SEdb专注于人类SE的全面遗传和表观遗传注释；EnhFFL专注于人类胎儿发育时间序列分析；而CenhANCER则集中于癌细胞系的SE数据。研究人员迫切需要一個能够整合多物种、多组学数据，并提供先进分析工具的統一平台。

为了解决这些问题，来自哈尔滨工业大学、齐齐哈尔医学院和哈尔滨医科大学第四医院的研究团队在《Nucleic Acids Research》上发表了SEA version 4.0，这是超级增强子存档（Super-Enhancer Archive）的一次重大升级。基于SEA 3.0的基础，新版本建立了标准化的计算流程，整合了包括新加入的H3K4me1在内的五种关键组蛋白标记， across 14个物种的系统性分析。该平台不仅存储了496,071个SEs和29,584,078个增强器，还提供了广泛的基因组注释和功能分析工具，成为解码SE在发育和疾病中机制的不可或缺资源。

主要技术方法

研究人员从ENCODE、GEO等基因组数据库中整合了2020年1月至2024年12月的公开原始数据。使用Bowtie2将原始测序读数比对到相应参考基因组，MACS2用于从比对读数中调用推定的增强子区域，ROSE算法构建潜在SEs。采用严格过滤策略，包括70%基因组重叠阈值合并、保留最高信号强度区域、排除长度小于1kb的SEs。单细胞数据分析使用Seurat包进行，利用Harmony进行批次校正，SingleR包进行细胞类型注释。整合了56个ATAC-seq数据集、HHCDB数据库的异染色质区域信息以及CRISPR/Cas9靶位点注释。

SEA version 4.0的设计与扩展

SEA version 4.0建立了精细化的计算框架，通过标准化流程显著提升了SE识别的准确性。与SEA 3.0相比，新版本在多个维度实现了显著扩展：物种从11个增加到14个，识别标志物从4个增加到5个，细胞类型/组织/疾病从266个增加到543个，SE数量从164,402个增加到496,071个，增强子数量从3,361,785个增加到29,584,078个。特别是转录因子结合位点（TFBS）的数量从1,104,229个大幅增加到1,218,927个，增长了1103.87倍。

平台采用五模块架构：搜索模块支持通过基因组位置、基因关联或细胞类型快速访问SEs和增强子；SEA Browser模块支持17个参考基因组的多轨道可视化；分析模块提供GO/KEGG富集、SE区域特异性分析和TF富集等功能；工具模块用于构建SE调控网络和识别肿瘤特异性SEs；下载模块提供所有数据的获取和BED格式转换。

有意义的SE注释

SEA version 4.0实现了SE的全面功能注释框架，整合了多模式基因组数据。该注释系统包括转录因子结合位点预测、人类异染色质区域映射、GO/KEGG功能富集分析、SpCas9靶位点注释以及染色质可及性分析。特别值得注意的是，平台引入了基于香农熵的SE细胞类型特异性量化方法，并建立了SE活性元素评分系统。

SE活性元素评分公式综合了三个基因组特征：组成增强子的归一化峰值信号、染色质可及性区域信号以及TFBS的聚集富集分数。这一评分系统为识别上下文特异性SEs提供了量化依据，有助于发现调控细胞身份和疾病发病机制的关键基因。

解读SE生物学意义的专业工具

SEA version 4.0开发了两个特殊工具来挖掘SE的关键生物学作用。调控交互网络工具支持通过输入基因/转录因子/SE标识符来交互式可视化SE调控网络（人类/小鼠），构建直观的一阶邻居交互网络，图形化映射查询实体与其相关增强子、SEs和转录因子之间的连接。

肿瘤特异性SE工具专门针对常见人类癌症设计，整合了12种癌症类型及其对应正常组织的scRNA-seq数据，覆盖224个样本的401,815个单个细胞。通过严格的细胞过滤标准和Harmony-based整合，显著减少了患者特异性批次效应，能够识别细胞类型特异性SE-linked基因，为理解肿瘤生物学提供了强大的单细胞视角。

研究结论与意义

SEA version 4.0通过三个关键优化系统解决了SE研究中的数据一致性问题：使用70%基因组重叠阈值整合多因子表观遗传数据，保留信号强度最高的SE区域，以及过滤掉短于1kb的SEs。这些优化使假阳性识别相比SEA v3.0减少了41%，并发现CUT&Tag衍生的SEs比ChIP-seq鉴定的峰值宽度窄32%，这归因于CUT&Tag的优异分辨率。

该平台的肿瘤特异性SE探测器直接解决了基于批量测序平台的局限性，能够解析肿瘤内SE异质性。识别细胞类型特异性SEs为了解癌症机制提供了强大视角，因为这些调控元件在不同的细胞亚群（如癌症干细胞或免疫细胞）中与关键临床表型（如耐药性、不良预后和转移潜力）直接相关。

SEA version 4.0建立了目前最广泛的SE生物学解码集成平台，支持基因组和跨物种比较，揭示复杂的基因组相互作用。展望未来，SEA计划整合组织单细胞水平的多组学信息，包括空间转录组学和单细胞表观基因组图谱，构建更精确、动态的细胞水平SE活性图谱，进一步破译发育和疾病中的基因调控机制。该平台将继续作为全球研究界的免费重要资源，推动超级增强子研究领域的深入发展。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部