KATMAP：从敲低数据推断剪接因子活性与调控靶点的可解释模型揭示RNA剪接调控新机制

时间：2025年11月5日

来源：Nature Biotechnology

编辑推荐：

《自然-生物技术》推荐：研究团队开发KATMAP可解释回归模型，通过分析剪接因子(SF)结合模式及RNA加工过程的变化，从敲低数据推断SF的位置特异性调控活性并预测直接靶点。该模型无需CLIP数据即可区分直接靶点与间接效应，为剪接调控机制研究、临床RNA-seq数据解读及剪接转换反义寡核苷酸(ssASO)设计提供了强大工具。

在真核生物基因表达调控中，转录后调控程序对发育、生理和疾病起着至关重要的作用。选择性剪接能够使单个基因产生数十种不同的剪接异构体，通常具有特定组织或发育阶段 tuned 的功能，极大地扩展了蛋白质组多样性。然而，大约10-20%的致病变异会导致单个外显子剪接水平的变化，而剪接因子(SF)基因的扰动会广泛破坏剪接过程。

目前的研究面临几个关键挑战：典型的RNA测序(RNA-seq)实验会发现数百个剪接变化，反映了潜在剪接因子活性的变化，但如何理解SF活性如何影响转录组变异仍需阐明每个SF如何影响剪接的机制。虽然已经开发了许多探索性方法来评估特定motif或k-mer与剪接变异的关系，但这些方法每次应用时都需要发现数百或数千个motif和k-mer的推定活性，无法结合每个因子调控活性的先验知识。更聚焦的方法虽然利用了扰动实验，通过结合专家知识和交联免疫沉淀(CLIP)数据来预测特定SF的靶点，但定制这些模型的挑战限制了它们只能应用于少数经过充分研究的因子。

为了突破这些局限，麻省理工学院生物学系的Michael P. McGurk、David C. McWatters和Christopher B. Burge研究团队在《自然-生物技术》上发表了一项研究，开发了一个名为KATMAP的可解释回归模型。该模型通过分析SF结合变化及其导致的RNA加工改变，对整个转录组的剪接变化进行建模。

研究人员主要利用ENCODE项目的SF敲低数据、RNA-bind-n-seq衍生的位置特异性亲和矩阵(PSAM)和RNAcompete衍生的位置权重矩阵(PWM)作为结合模型，通过贝叶斯推断结合自适应重要性采样和集成嵌套拉普拉斯近似(INLA)进行统计推断。关键技术方法包括：使用rMATS进行差异剪接分析，基于序列特异性模型对外显子周围序列进行评分，采用分层框架定制每个SF的建模假设，并学习motif亲和力与结合之间的非线性生物物理关系。

模型概述与架构

KATMAP提供了一个从扰动实验中学习可解释剪接调控模型的框架。要学习调控模型，只需要一个SF被扰动的RNA-seq数据集和该因子序列特异性的某些模型作为输入。模型使用分层框架，为每个SF定制建模假设，并学习motif亲和力与结合之间的非线性生物物理关系，使KATMAP能够即应用于各种SF数据集。

模型架构基于一个直观假设：在对序列特异性SF的活性进行扰动之前，转录组中的序列motif以不同的占据水平被SF结合。只有当结合位点相对于外显子正确定位时，该因子才能影响剪接反应。 knockdown后，游离蛋白浓度降低，导致在整个蛋白质结合位点的占据减少。如果结合从调控区域丢失，则调控的丧失导致外显子包含发生变化。

稳健推断剪接调控活性

研究人员将KATMAP应用于ENCODE项目中35个SF的敲低数据，这些SF都有良好的蛋白质序列特异性模型。其中18个SF显示出显著的增强或抑制活性图，9个显示增强活性，6个显示抑制活性，3个同时具有增强和抑制活性。重要的是，对于14个在淋巴细胞衍生的K562细胞和肝细胞衍生的HepG2细胞中都有敲低/RNA-seq数据的因子，除一个因子(SF1)外，活性图在两次敲低之间是一致的，突出了推断的再现性。

研究发现剪接活性的证据与敲低效率相关(r=0.45)，增强或抑制活性只有在至少100个下调或上调外显子的敲低中才能被自信地检测到。研究揭示了三种不同的剪接激活剂群体：经典的SR蛋白调控模式、 polypyrimidine结合因子和具有下游增强活性的因子群体。

活性图定义调控靶点

KATMAP的活性图导致了SF直接靶点的自然定义：即具有适当强度和位置motif用于调控的外显子，与缺乏结合motif的外显子区分开来。研究人员通过将预测的结合变化乘以SF的活性图来计算每个外显子的"剪接影响"评分。

通过与Alu元件的比较验证表明，KATMAP的靶点预测恢复了HNRNPC对Alu外显子的已知沉默作用，强烈将Alu衍生的外显子分类到靶点集合中。在差异剪接的外显子中，预测为直接靶点的那些在敲低后具有更大的包含变化，平均 knockdown效应在预测的HNRNPC靶点上比预测的非靶点高两倍。

靶点预测在生物学背景间的泛化

研究发现，对于12个因子，从HepG2和K562细胞推断的模型产生了高度相似的调控预测，表明KATMAP一致地识别了结合motif与剪接调控之间的相同潜在关系。这种泛化性还延伸到跨物种应用，小鼠Rbfox1/2/3三敲除数据推断的活性图与人类RBFOX2敲低获得的活性图高度一致。

识别顺式调控元件及其破坏的后果

KATMAP的预测隐含了对顺式调控元件的陈述：对于任何预测的靶点，可以检查可能影响该外显子包含的预测SRE集合。研究人员使用这种可解释性通过minigene剪接 assay验证选定的预测，成功识别了调控序列元件并设计了破坏该调控的突变。

揭示协同调控

研究发现RBFOX和QKI具有惊人的相似活性图，尽管结合不同的motif，表明它们之间存在功能关系。使用KATMAP区分直接调控靶点与间接效应的能力重新评估了直接共调控的证据，发现在差异剪接的QKI靶点中富含RBFOX增强调控，反之亦然。

这些共调控外显子同时具有QKI结合和RBFOX结合位点，经常多个每种位点，作为 clusters 的交叉motif出现，由几十个核苷酸分隔。这种结合位点的接近表明QKI和RBFOX蛋白可能物理相互作用，这得到了先前酵母双杂交和 pulldown 质谱数据的支持。

推断RNA-seq数据中负责剪接变化的SF

KATMAP将敲低和RNA-seq数据提炼成可操作的关于剪接调控的见解，然后可以应用于解释其他RNA-seq数据集中的剪接变化。研究人员使用从K562敲低学习的剪接模型来解释HepG2敲低中的剪接变化，反之亦然，这种方法在23个敲低中的21个(91%)正确识别了耗竭的SF作为最具预测性的因子。

与直接使用外显子包含变化作为预测因子推断扰动的方法相比，KATMAP更准确地识别了次要扰动因子，可能是因为其能够主要关注各自SF直接靶点的剪接变化。

研究结论表明，KATMAP提供了一个从SF扰动数据中提取可操作见解的灵活可解释框架。该模型生成的活性图是SF调控活动的可解释可视化，也是可以在其他环境中进行预测的模型。这些预测将SF扰动的直接影响与间接影响区分开来，允许间接影响根据次要因子进一步解释，并防止它们污染关于扰动因子生物学作用的结论。

该研究的重要意义在于：首先，KATMAP提供了将数十年的实验工作用于回答生物学问题的机会；其次，该模型可以帮助解释可能影响剪接的序列变异；第三，在ASO设计中有应用，通过提供关于哪些顺式元件可能以所需方向改变包含的信息；最后，识别疾病中剪接程序的潜在SF可能加快治疗靶点的搜索，并导致对潜在原因的更好理解。