在真核生物基因表达调控中,转录后调控程序对发育、生理和疾病起着至关重要的作用。选择性剪接能够使单个基因产生数十种不同的剪接异构体,通常具有特定组织或发育阶段 tuned 的功能,极大地扩展了蛋白质组多样性。然而,大约10-20%的致病变异会导致单个外显子剪接水平的变化,而剪接因子(SF)基因的扰动会广泛破坏剪接过程。目前的研究面临几个关键挑战:典型的RNA测序(RNA-seq)实验会发现数百个剪接变化,反映了潜在剪接因子活性的变化,但如何理解SF活性如何影响转录组变异仍需阐明每个SF如何影响剪接的机制。虽然已经开发了许多探索性方法来评估特定motif或k-mer与剪接变异的关系,但这些方法每次应用时都需要发现数百或数千个motif和k-mer的推定活性,无法结合每个因子调控活性的先验知识。更聚焦的方法虽然利用了扰动实验,通过结合专家知识和交联免疫沉淀(CLIP)数据来预测特定SF的靶点,但定制这些模型的挑战限制了它们只能应用于少数经过充分研究的因子。为了突破这些局限,麻省理工学院生物学系的Michael P. McGurk、David C. McWatters和Christopher B. Burge研究团队在《自然-生物技术》上发表了一项研究,开发了一个名为KATMAP的可解释回归模型。该模型通过分析SF结合变化及其导致的RNA加工改变,对整个转录组的剪接变化进行建模。研究人员主要利用ENCODE项目的SF敲低数据、RNA-bind-n-seq衍生的位置特异性亲和矩阵(PSAM)和RNAcompete衍生的位置权重矩阵(PWM)作为结合模型,通过贝叶斯推断结合自适应重要性采样和集成嵌套拉普拉斯近似(INLA)进行统计推断。关键技术方法包括:使用rMATS进行差异剪接分析,基于序列特异性模型对外显子周围序列进行评分,采用分层框架定制每个SF的建模假设,并学习motif亲和力与结合之间的非线性生物物理关系。