摘要:转录因子(TF)对顺式调控元件(cis-regulatory element, CRE)的序列特异性识别将基因型信息传递至表型。由于CRE互作的多样性和复杂性,目前对遗传变异如何影响基因调控的理解仍十分有限。本研究利用在拟南芥(Arabidopsis thaliana) DNA结合数据上训练的可解释多标签深度学习模型,捕捉CRE序列本身、其更广的序列背景及语法(syntax)如何影响TF占用(occupancy)。训练完成后,该模型可在全cistrome水平注释TF结合位点(TF-binding site, TFBS),并揭示条件特异性的调控语法。通过整合拟南芥基因组与全基因组关联分析(genome-wide association study, GWAS)数据,该方法可预测差异TF结合,并鉴定数量性状位点(quantitative trait locus, QTL)内的调控基因变异。实验验证强调了顺式调控变异、基因表达与表型结果之间的联系。最后,将该模型应用于热胁迫条件下玉米(Zea mays)非靶向DNA结合检测,证明其具有表征亲缘较远作物中条件响应性TF结合的潜力。
论文解读:《Genome-wide modelling of plant transcription factor binding captures regulatory variants associated with phenotypic traits》
一、研究背景与意义
植物顺式调控元件(cis-regulatory element, CRE)控制转录丰度、剪接和RNA稳定性,驱动表型多样性。 deciphering植物基因调控网络受限于转录因子(transcription factor, TF)家族极度扩增及CRE模块组合的复杂性。作物(如玉米、甘蓝型油菜)GWAS关联的大部分SNP位于基因间区,暗示其为CRE相关的数量性状位点(quantitative trait locus, QTL),但建立非编码变异与植物性状间的功能联系仍是重大挑战。传统深度学习方法多将TF-DNA结合建模为独立二分类问题,随TF数目增加计算成本剧增且难以捕捉TF家族间共享的调控语法(regulatory syntax)与序列背景影响。此外,无抗体依赖的全基因组染色质占据检测技术如MOA-seq(MNase-defined cistrome-occupancy analysis sequencing)缺乏峰(peak)的TF身份注释。为此,研究人员利用拟南芥公共DNA亲和纯化测序(DNA affinity purification sequencing, DAP-seq)数据集训练可解释多标签卷积神经网络(multi-label Convolutional Neural Network, CNN),实现全基因组TF结合位点注释、条件特异性调控语法解析、调控变异效应预测及跨物种转移注释,相关工作发表于《Nature Communications》。
二、主要关键技术方法
研究人员收集拟南芥219套ampDAP-seq与349套DAP-seq数据(FRiP≥5%),涵盖46个TF家族;将基因组切分为250 bp无重叠窗口并按TF家族重叠峰标注为多标签;采用4折染色体水平交叉验证训练四层卷积块+两层全连接的多标签CNN(输出层46单元Sigmoid激活),并通过重叠滑动窗口(步长75 bp)与类别加权损失函数缓解类别不平衡;利用SHAP与TF-MoDISco提取各TF家族交互预测基序(interaction predictive motif, IPM);以MOA-seq(拟南芥叶片)和Zea mays热胁迫MOA-seq/DAP-seq/ChIP-seq验证跨物种注释能力;利用AraGWAS目录SNP与plant STARR-seq(本氏烟草暗条件)验证非编码变异对TF结合及启动子活性的影响;基于预测启动子/终止子区TF结合谱对拟南芥基因进行UMAP降维与HDBSCAN聚类并做功能富集分析。
三、研究结果
Modelling protein–DNA interactions in A. thaliana
研究人员将拟南芥基因组分为250 bp窗口并以46个TF家族DAP-seq峰标注,训练多标签CNN。染色体交叉验证显示模型全基因组auPR=0.53、auROC=0.89,启动子区相近,显著优于单/双核苷酸混排对照(p<0.01),推断结合事件富集于近端启动子及转录终止位点(transcription termination site, TTS)下游,表明模型有效学习序列特征。
Analysing the effects of class distribution on model performance
类别频率与MCC呈正相关(r=0.43, p=0.002),少数类敏感度低。引入重叠窗口(步长75/125 bp)与类别加权损失后,少数类性能提升(如RWPRK_tnt MCC=0.49),组合策略最优且打破性能与类频相关性。Top-k(10个最丰富)家族模型略优,bottom-k(10个最少)家族单独训练显著提升少数类预测,证实数据不平衡是主因但部分家族(如EIL_tnt)因其他原因难预测。
Model interpretation for de novo identification of TF family-specific binding motifs
应用SHAP与TF-MoDISco从正确预测序列提取IPM,经motifStack聚类,39个TF家族IPM与JASPAR数据库及已知DAP-seq基序显著相似——如WRKY核心5′-TTGAC-3′、bZIP/bHLH G-box(5′-CACGTG-3′)及其变体。优化模型额外恢复低丰度家族(EIL_tnt等)共识基序。基序相似家族(bZIP/BES1/bHLH共享G-box;AT-rich ARID/ZFHD/HB)存在较高共预测假阳性,反映真实结合位点冗余。
Sequence context and motif syntax contribute to predicting the binding specificity of different TF families
仅凭IPM出现预测结合FDR达0.819,模型应用将其平均降低0.314,说明模型整合了扩展序列背景。一个窗口含多个TFBS时MCC更高(r=0.846),偏移独立性(offset independence)与MCC强相关(r=0.8),共现(co-occurrence)加权均值中度相关(r=0.64),IPM语境重要性(IPM context importance value, IPMciv)亦相关(r=0.58)。BZR虽仅靠IPM难预测(MCC=0.656),但模型靠侧翼序列与协同IPM组合正确分类74% BZR结合,说明捕捉到超越核心基序的cis-regulatory module语法。AP2/EREBP与BBR/BPC具高MCC与低语境依赖性,HB则靠模型过滤大量匹配位点提高精度。
TF-binding potential classifies genes to 14 distinct regulatory clusters
基于基因上下游1.5 kb预测TF结合谱,UMAP+HDBSCAN将拟南芥基因分为14个调控簇(regulatory cluster)。各簇富集特定TF家族组合,功能富集分析(Fisher精确检验FDR≤0.05)显示c4-E2FDP-bZIP-ZFHD-WRKY富集细胞分裂与染色质组织基因,c7-ZFHD-BBRBPC-ND-bZIP富集器官发生(叶)及相关生物合成通路。同簇基因显著共表达(BH FDR<0.05),表明相似TF结合潜势关联共调控。
Predicted TFBS dynamics explain gene expression changes
豌豆rbcS-E9增强子深度突变扫描中,单核苷酸置换致预测MYB-related/bHLH/bZIP/BZR TFBS丢失者增强子活性显著降低。玉米核心启动子变异致预测HSF或S1Fa-like TFBS丢失则启动子强度减弱,与已发表原生质体实验结果一致。组合TF变化(如并行获得bZIP+bHLH+AP2/EREBP并丢失HSF)伴随显著表达改变,说明模型捕捉组合调控效应。
Genetic variation affects TF-binding potential in loci associated with phenotypic traits
7364个拟南芥GWAS关联SNP(启动子/终止子±1.5 kb)中20.72%致预测TFBS获得/丢失,41.73%概率偏移>0.2。A-to-T突变于AT3G10572启动子破坏相邻G-box侧翼并影响SBP核心,致bZIP/BZR/NAC/LOBAS2/SBP结合改变。Plant STARR-seq验证:预测bHLH或bZIP结合丢失致报告基因表达上升,WRKY结合丢失致下降,MYB结合获得致上升(p<0.05)。开花时间关联SNP(如AT3G10572、AT3G09940、AT3G09925)中预测TF结合改变与实测转录水平变化相符,证明模型可将GWAS信号链接至顺式调控变异功能。
Model-based peak annotation enables genome-scale annotation from untargeted DNA binding assays
拟南芥叶片MOA-seq约60,000个显著峰,模型注释90%峰至少归属一TF家族,与DAP-seq重叠比对显示74%峰正确归属至少一家族,混排序列对照仅8.3%,未学家族(RAV/EIL/MADS/RWPRK)无注释。表明模型可为无靶向DNA结合检测提供TF身份注释。
A. thaliana-trained TF-binding model annotates stress-induced TF-binding in Z. mays
模型直接预测玉米DAP-seq峰,共有TF家族平均准确率r=0.797,跨物种可迁移;ChIP-seq因染色质环境依赖性能略降(r=0.423)。玉米热/对照MOA-seq峰按fold change分层,以拟南芥模型预测谱训练Logistic Regression二分类热响应,平均准确率~80%;置换重要性突出HSF、G2like、NAC、bZIP、LOBAS2、AP2/EREBP在热胁迫响应中作用,HSF重要性随热响应增强而升高。
四、讨论与结论
研究人员提出,相比传统单基序扫描与逐TF二分类,该可解释多标签深度学习CNN提供了可扩展的全基因组TF结合注释及跨物种转移学习框架。主要生物学发现包括:(1)模型捕捉调控语法与序列上下文(侧翼序列、TF共结合)对TF占有的贡献,能区分共享G-box的不同TF家族(如BZR vs bZIP/bHLH)基于协同基序与侧翼扰动响应;(2)基于TF结合谱相似性而非共表达将基因划分为14个功能与共调控簇,关联启动子序列—TF结合组合—基因功能—共表达;(3)将非编码SNP功能定义为预测TF结合改变,为GWAS提供顺式调控变异功能注释,实例验证开花时间等性状关联SNP通过改變BZR/NAC/WRKY/MYB等结合影响表达。模型局限为少数低丰度TF家族因数据稀缺未被学习及250 bp固定窗口可能掩盖密集TFBS内单一位点突变效应,可通过IPM注释与重要性评分辅助定位。该模型尤其适用于缺乏大规模DNA结合数据的物种,可与MOA-seq/ATAC-seq联用相互校正,并为作物非编码调控变异解析与分子设计育种提供工具。
打赏