多组学与深度学习解析人类发育中的调控“语法”

时间:2026年4月10日
来源:Nature

编辑推荐:

本研究为解析人类发育过程中细胞类型特异性转录因子结合与染色质可及性的调控规律,面临既往多组织、多模态单细胞数据的匮乏。研究人员构建了覆盖12个器官、81.7万个胎儿细胞的人类发育多组学图谱(HDMA),并训练深度学习模型揭示了一套全面的、具有特定句法规则的转录因子基序库,包括介导协同性的复合基序,以及抑制可及性的普遍性基序。该工作阐明了基序“句法”如何控制细胞类型特异性染色质状态,并为解读人类发育中的顺式调控逻辑和解释遗传变异提供了基础资源。

广告
   X   

在生命这场宏大的交响乐中,每个细胞的命运都受到其内部“乐谱”——基因组的精确调控。转录因子(Transcription Factors, TFs)是这场交响乐的核心“指挥家”,它们能特异性结合DNA上的调控区域,打开局部染色质,从而激活或抑制基因表达,最终塑造出从神经细胞到心肌细胞等两百多种不同的人体细胞类型。然而,理解这些“指挥家”如何阅读和执行“乐谱”的具体规则,即转录因子结合位点的组织方式(或称调控“语法”),尤其是在动态复杂的人类发育过程中,一直是个巨大的科学挑战。
长期以来,科学家们依赖测量染色质可及性(如ATAC-seq、DNase-seq)来推断转录因子的活动。但传统方法通常使用“批量”组织样本,这就像把整个交响乐团的乐器混在一起录音,无法分辨出小提琴独奏或定音鼓的节拍。尽管近年来出现了针对单个器官或单一模态(仅测可及性或仅测基因表达)的单细胞图谱,但要全面捕捉细胞环境特异性的顺式调控逻辑,并将染色质状态与转录程序联系起来,一个跨越多器官、整合多模态(同时测可及性和表达)的视角至关重要。此外,成千上万的复杂疾病相关遗传变异富集在非编码基因组中,但我们预测哪些变异会在特定细胞类型中破坏调控活性的能力仍然有限。
近期,能够从局部DNA序列预测碱基分辨率染色质可及性谱的深度学习模型,为解码这一调控逻辑提供了强大工具。这些模型不仅能从头发现预测性基序和转录因子足迹,还能通过预测DNA序列变化对可及性的定量影响,实现对调控序列“语法”和非编码遗传变异的计算机模拟“审问”。
在此背景下,一项发表于《自然》(Nature)杂志的研究给出了突破性答案。研究人员构建了“人类发育多组学图谱”(Human Development Multiomic Atlas, HDMA),这是一个涵盖了12个人类胎儿器官、81.7万个细胞的染色质可及性与基因表达的单细胞图谱。他们绘制了超过一百万个可及的调控元件,并证明了其解析器官和细胞类型特异性体内增强子活性的能力。通过训练和解读深度学习模型,研究团队定义了一套驱动可及性的调控序列基序库,并推断出了每种细胞类型中全基因组范围内的预测性基序实例。对基序“语法”的深入探究揭示了“硬”(精确间距和方向)和“软”(灵活排列)两种句法约束。最后,他们优先考虑了可能在发育过程中扰乱调控功能的疾病相关变异。这项研究为解码顺式调控“语法”、将序列变异与基因调控联系起来,以及理解DNA序列如何在人类发育过程中影响转录调控提供了基础性资源。
为了开展这项研究,作者们运用了几个关键的技术方法。首先,他们使用SHARE-seq这一可扩展的分池组合条形码技术平台,对来自12个器官、孕后10-23周的人类胎儿细胞进行了染色质可及性和基因表达的同时分析。其次,通过迭代聚类和标记基因分析,结合转录因子基序富集信息,对细胞类型进行了多层级(L1, L2, L3)注释。再者,利用活动-接触(Activity-by-Contact, ABC)模型将可及的顺式调控元件与基因进行关联。研究的核心在于训练了卷积神经网络模型ChromBPNet,用于从局部DNA序列预测每种细胞类型的染色质可及性谱。最后,通过模型解释工具(如DeepLIFT, TF-MoDISco, Fi-NeMo)和计算机模拟扰动分析,系统性地揭示了调控基序及其句法规则,并评估了遗传变异的影响。
A multiomic human development atlas (多组学人类发育图谱)
研究人员利用SHARE-seq技术,成功从81.7万个胎儿细胞中同时获得了染色质可及性和基因表达数据,构建了HDMA。与之前的单模态图谱相比,该数据集在转录起始位点富集、分子标签数量和检测到的基因数方面均有提升。通过结合经典标记基因和新发现的标记基因,团队注释了203个不同的细胞簇,并进一步归纳为134个细胞类型和37个广谱细胞类别。分析显示,不同器官中常见的细胞类型(如内皮细胞、成纤维细胞)往往基于表达谱聚集在一起。全局性的基序可及性变异分析揭示了跨细胞类型共享的转录因子基序可及性模式。
Accessibility landscape of development (发育的可及性景观)
通过整合所有细胞类型的峰值区域,研究定义了一个包含1,032,273个染色质可及的顺式调控元件(caCREs)的全局集合。其中大部分与ENCODE v4数据库中已知的候选CRE重叠,但仍有14.9%是新发现的,尤其在脑和眼细胞类型中富集,表明单细胞分析能够揭示批量数据中缺失的细胞类型特异性调控元件。利用ABC模型将caCREs与基因关联后,发现每个广谱细胞类型中被最多caCREs连接的基因(高度连接基因,HLGs)显著富集于细胞类型特异性过程相关的Gene Ontology (GO)术语。进一步分析发现,一组在所有细胞类型中都被高度调控的基因(全局高度连接基因,gHLGs)主要是转录因子,这表明转录因子是发育过程中受调控最严格的基因之一。
Resolving regulatory element specificity (解析调控元件特异性)
为了验证HDMA鉴定的增强子,研究人员将其与VISTA数据库中经实验验证的小鼠胚胎增强子进行比对。结果显示,被注释在脑、心、眼中活跃的VISTA增强子,在HDMA对应的细胞类型里确实显示出更强的可及性和基因表达。有趣的是,几个先前被注释为心脏特异性的增强子,在HDMA数据中却在肝脏细胞类型中表现出极强的可及性。通过重新检查小鼠胚胎切片,研究人员确认了其中六个候选增强子(包括著名的α-珠蛋白超级增强子位点mm101)在肝脏中同样具有活性。在肝脏中,mm101增强子的可及性及其关联的α-珠蛋白基因HBA2的表达,都特异性富集在成红细胞中,这与胎儿肝脏是发育期红细胞生成位点的事实相符。
The transcription factor motif lexicon (转录因子基序库)
为了识别预测染色质可及性的顺式调控序列特征,研究人员为每种细胞类型训练了ChromBPNet深度学习模型,以从局部DNA序列预测可及性谱。模型表现出色,在测试集上预测与观测的计数对数之间中位皮尔逊相关系数达0.78。通过模型解释,他们从189种细胞类型中归纳出了一套包含508个从头预测基序的“词典”。这些基序包括已知基序、已知基序的变体(如CTCF)、以及包含同型或异型位点的复合基序。大部分基序对可及性有正向贡献,但也有一部分有负向贡献。利用Fi-NeMo工具,他们在每种细胞类型的可及峰中定位了这些基序的预测性实例。分析发现,普遍存在的、启动子主导的基序(如NRF1、YY1/2、SP/KLF)靠近转录起始位点,而器官和细胞类型特异性基序(如肝脏中的HNF4、免疫细胞中的RUNX)则主要位于远端或内含子区。对基序共现的分析揭示了组织依赖性的基序伙伴关系。
Inferring distinct modes of transcription factor synergy (推断转录因子协同性的不同模式)
组合性转录因子结合可以通过协同相互作用增强特异性与功能。研究人员利用计算机模拟边缘化框架,系统性地评估了所有从头复合基序中两个组成基序对染色质可及性的联合效应与独立效应之和的差异,从而推断协同性。在测试的138个复合基序中,他们识别出67个具有显著协同效应,并进一步根据基序间距和效应大小将其分类为具有“硬”句法(要求精确间距和方向)或“软”句法(允许灵活排列)的基序。硬句法基序(如Coordinator元件,由E-box和同源异型域基序构成)在特定间距(如5 bp)下显示出强烈的协同效应,这与已知的蛋白质-蛋白质相互作用结构相符。软句法基序则显示出更宽的距离偏好和更温和的联合效应。协同性基序句法在大多数细胞谱系中均被检测到,且其效应具有细胞类型特异性,可能受组成因子表达的约束。
Ubiquitous motifs reduce accessibility (普遍性基序降低可及性)
大多数从头基序具有正向贡献,但有一小部分(15个)被预测对可及性有负向效应。这些负向基序在可及区域中广泛存在,匹配已知具有抑制活性的转录因子家族(如ZEB/SNAIL, BCL11A),但也包括未在已知数据库中匹配的序列。值得注意的是,NFY和YY1/2等基序表现出双重角色,其不同变体分别驱动正向或负向效应。负向基序实例富集在核小体 dyad 附近,而在峰顶附近则被耗尽,这与正向基序的模式相反。计算机模拟“敲除”实验表明,消除正向基序会降低预测可及性,而消除负向基序则会小幅增加预测可及性。为了评估基序对下游基因表达的影响,研究人员分析了来自GTEx数据库的表达数量性状位点(eQTLs)中的精细定位变异。结果与假设一致:破坏正向基序的变异显著富集下调eQTLs,而破坏负向基序的变异则富集上调eQTLs,且显示出组织特异性模式。
Disease variants in regulatory elements (调控元件中的疾病变异)
为了研究遗传变异如何扰乱调控,研究人员分析了高置信度的致病因果变异(SuSiE PIP ≥ 0.8)与疾病富集的胎儿细胞类型中预测性基序实例的重叠情况。为了区分胎儿特异性效应,他们比较了变异在HDMA caCREs和匹配的成人细胞类型ENCODE peaks中的重叠。他们鉴定出28个仅存在于胎儿peak集合中的“胎儿特异性”变异。利用ChromBPNet模型预测这些变异对局部染色质可及性的影响,发现许多会通过破坏基序来改变可及性。文中重点展示了两例:一例是哮喘相关变异rs113892147,它破坏了一个正向NRF1基序,并预测会降低胎儿肺巨噬细胞的可及性;另一例是冠状动脉疾病(CAD)相关变异rs12740374,它破坏了一个负向ZEB/SNAIL基序,并创建了一个C/EBP结合位点,预测会增加胎儿肌肉内皮细胞的可及性。这些发现将已知疾病风险位点的潜在作用机制扩展到了发育期的特定细胞类型。
讨论
本研究定义了人类发育的多组学图谱中的染色质可及性和转录组景观。研究人员解析了体内器官和细胞类型特异性的增强子活性,利用深度学习策略识别了调控基序,揭示了转录因子协同性的不同模式,并解释了疾病相关遗传变异对发育染色质景观的影响。该工作通过揭示跨多个器官的核苷酸分辨率、细胞类型特异性调控逻辑,极大地扩展了人类发育调控图谱的分辨率和范围。
深度学习框架是经典基序发现方法(如DNase足迹分析或体外结合实验)的有力补充。ChromBPNet模型可以在测序深度有限的单细胞簇伪批量数据上进行训练和解释,从而在原发性组织中实现稳健的、细胞环境特异性的基序发现。模型学习到的是直接预测染色质可及性的可能因果序列特征,并能够通过计算机模拟扰动系统性探究基序“语法”,提供机制性见解。
研究揭示了67个对染色质可及性具有协同效应的基序对,其中48个显示出对特定间距和方向的强烈偏好,这令人回想起经典的IFNβ“增强子体”模型以及具有刚性结合结构的AP-1–IRF4 (AICE) 和 ETS–IRF (EICE) 复合元件。同时,识别出的27个具有“软”句法的基序,与转录因子同核小体竞争或招募染色质重塑因子的生物物理模型一致。这种句法灵活性可能赋予调控元件更强的进化稳健性。
对深度学习模型的解释识别出了降低可及性的负向基序,它们表现出独特的偏向核小体 dyad 和远端区域的位置偏好,并显著富集上调eQTL变异。独立证据支持负向基序的调控作用。值得注意的是,YY1/2和NFY的基序可以根据上下文发挥正向或负向调控功能,这与YY1作为激活因子和抑制因子的双重功能以及NFY作为维持活跃调控元件处核小体缺失区的组蛋白折叠蛋白的作用是一致的。
尽管eQTL分析突显了破坏正向基序通常会导致基因表达下降,但有两个正向基序(一个RFX基序和一个SP/KLF样位点)富集了上调eQTLs。这些特定eQTLs可能反映了亲和力优化变异,或是这些转录因子在增加染色质可及性的同时抑制基因表达。
总之,HDMA为解码顺式调控“语法”、将序列变异与基因调控联系起来,以及理解DNA序列如何在人类发育过程中影响转录调控提供了基础性资源。这项工作揭示了调控序列的复杂“词典”和“语法”,为未来研究发育生物学、人类疾病和进化中的基因调控机制奠定了新的基石。

生物通微信公众号
微信
新浪微博


生物通 版权所有