拟南芥转录因子结合的全基因组建模捕捉与表型性状相关的调控变异

时间：2026年6月4日

来源：Nature Communications

编辑推荐：

摘要：转录因子(TF)对顺式调控元件(cis-regulatory element, CRE)的序列特异性识别将基因型信息传递至表型。由于CRE互作的多样性和复杂性，目前对遗传变异如何影响基因调控的理解仍十分有限。本研究利用在拟南芥(Arabidopsis t

摘要：转录因子(TF)对顺式调控元件(cis-regulatory element, CRE)的序列特异性识别将基因型信息传递至表型。由于CRE互作的多样性和复杂性，目前对遗传变异如何影响基因调控的理解仍十分有限。本研究利用在拟南芥(Arabidopsis thaliana) DNA结合数据上训练的可解释多标签深度学习模型，捕捉CRE序列本身、其更广的序列背景及语法(syntax)如何影响TF占用(occupancy)。训练完成后，该模型可在全cistrome水平注释TF结合位点(TF-binding site, TFBS)，并揭示条件特异性的调控语法。通过整合拟南芥基因组与全基因组关联分析(genome-wide association study, GWAS)数据，该方法可预测差异TF结合，并鉴定数量性状位点(quantitative trait locus, QTL)内的调控基因变异。实验验证强调了顺式调控变异、基因表达与表型结果之间的联系。最后，将该模型应用于热胁迫条件下玉米(Zea mays)非靶向DNA结合检测，证明其具有表征亲缘较远作物中条件响应性TF结合的潜力。

论文解读：《Genome-wide modelling of plant transcription factor binding captures regulatory variants associated with phenotypic traits》

一、研究背景与意义

植物顺式调控元件(cis-regulatory element, CRE)控制转录丰度、剪接和RNA稳定性，驱动表型多样性。 deciphering植物基因调控网络受限于转录因子(transcription factor, TF)家族极度扩增及CRE模块组合的复杂性。作物（如玉米、甘蓝型油菜）GWAS关联的大部分SNP位于基因间区，暗示其为CRE相关的数量性状位点(quantitative trait locus, QTL)，但建立非编码变异与植物性状间的功能联系仍是重大挑战。传统深度学习方法多将TF-DNA结合建模为独立二分类问题，随TF数目增加计算成本剧增且难以捕捉TF家族间共享的调控语法(regulatory syntax)与序列背景影响。此外，无抗体依赖的全基因组染色质占据检测技术如MOA-seq(MNase-defined cistrome-occupancy analysis sequencing)缺乏峰(peak)的TF身份注释。为此，研究人员利用拟南芥公共DNA亲和纯化测序(DNA affinity purification sequencing, DAP-seq)数据集训练可解释多标签卷积神经网络(multi-label Convolutional Neural Network, CNN)，实现全基因组TF结合位点注释、条件特异性调控语法解析、调控变异效应预测及跨物种转移注释，相关工作发表于《Nature Communications》。

二、主要关键技术方法

研究人员收集拟南芥219套ampDAP-seq与349套DAP-seq数据(FRiP≥5%)，涵盖46个TF家族；将基因组切分为250 bp无重叠窗口并按TF家族重叠峰标注为多标签；采用4折染色体水平交叉验证训练四层卷积块+两层全连接的多标签CNN（输出层46单元Sigmoid激活），并通过重叠滑动窗口(步长75 bp)与类别加权损失函数缓解类别不平衡；利用SHAP与TF-MoDISco提取各TF家族交互预测基序(interaction predictive motif, IPM)；以MOA-seq（拟南芥叶片）和Zea mays热胁迫MOA-seq/DAP-seq/ChIP-seq验证跨物种注释能力；利用AraGWAS目录SNP与plant STARR-seq（本氏烟草暗条件）验证非编码变异对TF结合及启动子活性的影响；基于预测启动子/终止子区TF结合谱对拟南芥基因进行UMAP降维与HDBSCAN聚类并做功能富集分析。

三、研究结果

Modelling protein–DNA interactions in A. thaliana

研究人员将拟南芥基因组分为250 bp窗口并以46个TF家族DAP-seq峰标注，训练多标签CNN。染色体交叉验证显示模型全基因组auPR=0.53、auROC=0.89，启动子区相近，显著优于单/双核苷酸混排对照(p<0.01)，推断结合事件富集于近端启动子及转录终止位点(transcription termination site, TTS)下游，表明模型有效学习序列特征。

Analysing the effects of class distribution on model performance

类别频率与MCC呈正相关(r=0.43, p=0.002)，少数类敏感度低。引入重叠窗口(步长75/125 bp)与类别加权损失后，少数类性能提升（如RWPRK_tnt MCC=0.49），组合策略最优且打破性能与类频相关性。Top-k(10个最丰富)家族模型略优，bottom-k(10个最少)家族单独训练显著提升少数类预测，证实数据不平衡是主因但部分家族(如EIL_tnt)因其他原因难预测。

Model interpretation for de novo identification of TF family-specific binding motifs

应用SHAP与TF-MoDISco从正确预测序列提取IPM，经motifStack聚类，39个TF家族IPM与JASPAR数据库及已知DAP-seq基序显著相似——如WRKY核心5′-TTGAC-3′、bZIP/bHLH G-box(5′-CACGTG-3′)及其变体。优化模型额外恢复低丰度家族(EIL_tnt等)共识基序。基序相似家族(bZIP/BES1/bHLH共享G-box；AT-rich ARID/ZFHD/HB)存在较高共预测假阳性，反映真实结合位点冗余。

Sequence context and motif syntax contribute to predicting the binding specificity of different TF families

仅凭IPM出现预测结合FDR达0.819，模型应用将其平均降低0.314，说明模型整合了扩展序列背景。一个窗口含多个TFBS时MCC更高(r=0.846)，偏移独立性(offset independence)与MCC强相关(r=0.8)，共现(co-occurrence)加权均值中度相关(r=0.64)，IPM语境重要性(IPM context importance value, IPMciv)亦相关(r=0.58)。BZR虽仅靠IPM难预测(MCC=0.656)，但模型靠侧翼序列与协同IPM组合正确分类74% BZR结合，说明捕捉到超越核心基序的cis-regulatory module语法。AP2/EREBP与BBR/BPC具高MCC与低语境依赖性，HB则靠模型过滤大量匹配位点提高精度。

TF-binding potential classifies genes to 14 distinct regulatory clusters

基于基因上下游1.5 kb预测TF结合谱，UMAP+HDBSCAN将拟南芥基因分为14个调控簇(regulatory cluster)。各簇富集特定TF家族组合，功能富集分析(Fisher精确检验FDR≤0.05)显示c4-E2FDP-bZIP-ZFHD-WRKY富集细胞分裂与染色质组织基因，c7-ZFHD-BBRBPC-ND-bZIP富集器官发生(叶)及相关生物合成通路。同簇基因显著共表达(BH FDR<0.05)，表明相似TF结合潜势关联共调控。

Predicted TFBS dynamics explain gene expression changes

豌豆rbcS-E9增强子深度突变扫描中，单核苷酸置换致预测MYB-related/bHLH/bZIP/BZR TFBS丢失者增强子活性显著降低。玉米核心启动子变异致预测HSF或S1Fa-like TFBS丢失则启动子强度减弱，与已发表原生质体实验结果一致。组合TF变化（如并行获得bZIP+bHLH+AP2/EREBP并丢失HSF）伴随显著表达改变，说明模型捕捉组合调控效应。

Genetic variation affects TF-binding potential in loci associated with phenotypic traits

7364个拟南芥GWAS关联SNP（启动子/终止子±1.5 kb）中20.72%致预测TFBS获得/丢失，41.73%概率偏移>0.2。A-to-T突变于AT3G10572启动子破坏相邻G-box侧翼并影响SBP核心，致bZIP/BZR/NAC/LOBAS2/SBP结合改变。Plant STARR-seq验证：预测bHLH或bZIP结合丢失致报告基因表达上升，WRKY结合丢失致下降，MYB结合获得致上升(p<0.05)。开花时间关联SNP（如AT3G10572、AT3G09940、AT3G09925）中预测TF结合改变与实测转录水平变化相符，证明模型可将GWAS信号链接至顺式调控变异功能。

Model-based peak annotation enables genome-scale annotation from untargeted DNA binding assays

拟南芥叶片MOA-seq约60,000个显著峰，模型注释90%峰至少归属一TF家族，与DAP-seq重叠比对显示74%峰正确归属至少一家族，混排序列对照仅8.3%，未学家族(RAV/EIL/MADS/RWPRK)无注释。表明模型可为无靶向DNA结合检测提供TF身份注释。

A. thaliana-trained TF-binding model annotates stress-induced TF-binding in Z. mays

模型直接预测玉米DAP-seq峰，共有TF家族平均准确率r=0.797，跨物种可迁移；ChIP-seq因染色质环境依赖性能略降(r=0.423)。玉米热/对照MOA-seq峰按fold change分层，以拟南芥模型预测谱训练Logistic Regression二分类热响应，平均准确率~80%；置换重要性突出HSF、G2like、NAC、bZIP、LOBAS2、AP2/EREBP在热胁迫响应中作用，HSF重要性随热响应增强而升高。

四、讨论与结论

研究人员提出，相比传统单基序扫描与逐TF二分类，该可解释多标签深度学习CNN提供了可扩展的全基因组TF结合注释及跨物种转移学习框架。主要生物学发现包括：(1)模型捕捉调控语法与序列上下文（侧翼序列、TF共结合）对TF占有的贡献，能区分共享G-box的不同TF家族（如BZR vs bZIP/bHLH）基于协同基序与侧翼扰动响应；(2)基于TF结合谱相似性而非共表达将基因划分为14个功能与共调控簇，关联启动子序列—TF结合组合—基因功能—共表达；(3)将非编码SNP功能定义为预测TF结合改变，为GWAS提供顺式调控变异功能注释，实例验证开花时间等性状关联SNP通过改變BZR/NAC/WRKY/MYB等结合影响表达。模型局限为少数低丰度TF家族因数据稀缺未被学习及250 bp固定窗口可能掩盖密集TFBS内单一位点突变效应，可通过IPM注释与重要性评分辅助定位。该模型尤其适用于缺乏大规模DNA结合数据的物种，可与MOA-seq/ATAC-seq联用相互校正，并为作物非编码调控变异解析与分子设计育种提供工具。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部