编辑推荐:
针对远缘物种间顺式调控元件(CREs)序列保守性低但功能可能保守的科学难题,研究人员通过建立"种间点投影"(IPP)算法,整合小鼠和鸡胚胎心脏的功能基因组数据,揭示了高达五倍的间接保守(IC)CREs。这些序列高度分歧但位置保守的元件具有相似的染色质特征和转录因子结合位点(TFBS)组成,并通过体内报告实验验证功能保守性,为理解发育调控的进化机制提供了新视角。
在生命演化的长河中,脊椎动物胚胎发育展现出惊人的保守性,特别是心脏等器官的形态发生过程。然而令人困惑的是,驱动这些保守发育程序的顺式调控元件(CREs)却往往缺乏序列相似性,这一矛盾现象长期困扰着进化发育生物学家。传统观点认为,CREs的功能保守性依赖于DNA序列的保守性,但越来越多的证据表明,某些CREs在完全缺乏序列相似性的情况下仍能保持功能保守。这种"功能保守但序列分歧"的现象究竟是个别特例还是普遍规律?其背后的分子机制又是什么?这些问题对于理解基因调控网络的进化机制至关重要。
为解答这些科学问题,来自德国马克斯·普朗克研究所等单位的研究团队在《Nature Genetics》发表了一项突破性研究。研究人员创新性地结合功能基因组学、机器学习算法和转基因技术,系统研究了小鼠和鸡胚胎心脏发育过程中CREs的进化保守性模式。研究团队首先建立了高分辨率的染色质可及性(ATAC-seq)、组蛋白修饰(ChIPmentation)和三维基因组(Hi-C)图谱,然后开发了名为"种间点投影"(Interspecies Point Projection, IPP)的计算方法,该方法通过多物种桥接比对和同线性分析,能够在序列高度分歧的情况下识别位置保守的CREs。通过整合这些实验和计算手段,研究人员不仅验证了已知的序列保守CREs,更发现了大量此前未被认识的"间接保守"(Indirectly Conserved, IC)元件。
关键技术方法包括:1) 收集小鼠(E10.5/E11.5)和鸡(HH22/HH24)胚胎心脏和肢体的功能基因组数据(ATAC-seq、ChIP-seq、RNA-seq和Hi-C);2) 开发IPP算法,利用16个桥接物种的基因组比对识别位置保守的CREs;3) 训练支持向量机(SVM)模型预测心脏特异性增强子;4) 通过转基因报告系统验证预测的CREs功能。
研究结果部分揭示了多项重要发现:
"胚胎心脏CREs在小鼠和鸡中的鉴定"显示,尽管心脏特异性基因表达模式高度保守,但大多数非编码ATAC-seq峰缺乏序列保守性。Hi-C分析发现基因组调控区块(GRBs)的三维结构保持保守,提示CREs可能通过位置而非序列保守性维持功能。
"基于同线性的算法识别直系同源基因组区域"部分介绍了IPP算法的创新性。与传统比对方法(LiftOver)相比,IPP能识别出多达五倍的保守CREs。在鸡基因组中,IPP将保守启动子和增强子的识别数量分别提高了三倍和五倍。值得注意的是,这些IC区域虽然缺乏序列相似性,但具有较高的phyloP保守性评分,表明它们确实处于进化约束区域。
"已发表CREs的重新分析增加推定直系同源物"通过对已发表数据集(包括心脏增强子、肢体CREs和肝脏CEBP/A结合位点)的重新分析,证实IPP能显著提高远缘物种间保守CREs的识别率,特别是对于发育相关CREs的识别效果优于成体组织特异性CREs。
"IPP投射CREs的功能性染色质标记"部分发现,IC CREs与直接保守(DC)CREs在染色质标记富集模式上高度相似。在鸡基因组中,74%的DC启动子和33%的DC增强子投射区域与ATAC-seq峰重叠,而IC CREs的表现相当,显著优于非保守(NC)区域。H3K27ac等活性标记在DC和IC CREs投射位点均显示富集,支持这些区域的功能保守性。
"心脏特异性支持向量机模型验证IPP投射"通过机器学习方法进一步验证了IPP预测的可靠性。训练于小鼠数据的SVM模型能准确区分鸡心脏和肢体特异性增强子,且对IC CREs的预测准确性与DC CREs相当(AUC=0.76 vs 0.74)。模型解释显示,GATA、TEAD和HAND等心脏发育关键转录因子的结合位点是预测心脏增强子的主要特征。
"TFBS保守性作为CRE活性保守的指标"分析表明,功能保守的CREs对(包括DC和IC)比非保守对共享更多转录因子结合位点(TFBS)和足迹。有趣的是,虽然IC增强子与DC增强子共享相似数量的TFBS,但其排列顺序更为混乱,这可能是导致序列比对失败的原因。
"IC增强子对驱动保守表达模式"通过体内实验验证了6对IC增强子的功能保守性。例如,位于Pakap基因内含子的IC增强子在两种物种中均驱动广泛的心脏表达;Miga1-mm72片段重现了已知的心室特异性表达模式。这些结果强有力地证实了IPP预测的准确性。
"IC CREs显示更高的TFBS重排"通过Kendall tau距离(Kd)量化TFBS排列顺序的保守性,发现DC增强子的TFBS顺序最保守(中位Kd=0.27),而IC和NC增强子的TFBS顺序更为混乱(中位Kd=0.33),表明功能保守性更依赖于TFBS的组成平衡而非精确序列或排列顺序。
研究结论部分指出,这项研究通过创新性地结合功能基因组学和计算生物学方法,揭示了CREs功能保守性的新范式。传统观点严重低估了远缘物种间保守CREs的数量——通过位置保守性鉴定的CREs数量是序列比对方法的五倍。这些IC CREs虽然序列高度分歧,但具有与DC CREs相似的染色质特征、TFBS组成和功能活性,只是TFBS排列顺序更为灵活。这一发现解决了发育生物学中长期存在的"保守表型与分歧序列"矛盾,为理解基因调控网络的进化提供了新视角。
该研究的科学意义主要体现在三个方面:首先,IPP算法突破了序列比对的限制,为比较基因组学研究提供了新工具;其次,研究证实CREs功能保守性的分子基础更依赖于TFBS的组成平衡而非精确序列或排列顺序,这一发现深化了对顺式调控密码的理解;最后,研究为人类疾病相关非编码变异的跨物种功能研究提供了新思路,特别是在先天性心脏病等发育异常疾病中,IC CREs可能成为解读非编码突变功能的重要靶点。
这项研究也提出了若干有待探索的新问题:IC CREs的进化机制是什么?它们如何在序列快速演变的情况下维持功能?不同TFBS的进化速率是否存在差异?这些问题的解答将进一步推动进化发育生物学领域的发展。随着更多物种功能基因组数据的积累和算法改进,IPP方法有望在更广泛的比较生物学研究中发挥重要作用,最终绘制出基因调控网络进化的完整图谱。
生物通 版权所有