编辑推荐:
本研究针对非共价套索纠缠(non-covalent lasso entanglements)这一广泛存在于球状蛋白中的结构基元,通过整合E. coli、S. cerevisiae和H. sapiens的多组学数据,揭示了其β-链偏好性(11倍富集)和疏水序列特征(2.5倍富集),发现纠缠位点与酶活性中心、小分子结合位点显著相关,并构建了预测性能达AUROC 0.8的机器学习模型,为理解蛋白质折叠与功能进化提供了新视角。
在蛋白质结构生物学领域,一个长期困扰科学家的谜题是:为何某些蛋白质在体外实验中会顽固地保持错误折叠状态,甚至逃避分子伴侣的修复机制?近年研究发现,超过50%的球状蛋白中存在一种称为非共价套索纠缠(non-covalent lasso entanglements)的特殊拓扑结构,这种结构可能通过独特的空间约束影响蛋白质的折叠路径和功能表现。更引人注目的是,酶类蛋白中这类结构的富集程度高达普通蛋白的5倍,暗示其在生命活动中可能扮演着尚未被认知的关键角色。
美国宾夕法尼亚州立大学(The Pennsylvania State University)计算与数据科学研究所的Justin Petucci团队在《Journal of Molecular Biology》发表的研究,首次系统揭示了这类结构的分子特征与功能关联。研究人员整合了E. coli、S. cerevisiae和H. sapiens三个模式生物的蛋白质数据库,结合990维特征空间和机器学习方法,对纠缠结构的四个组分(闭合环、穿线残基等)进行了多尺度解析。
关键技术包括:1) 基于Homologous Gene Database的同源蛋白过滤策略;2) Shrake-Rupley算法计算溶剂可及表面积(SASA);3) 倾向评分匹配(PSM)控制结构埋藏效应;4) 5折交叉验证的逻辑回归模型构建。
【结构特征】研究发现穿线残基(crossing residues)呈现显著的β-链偏好性(70%概率),其形成概率是α-螺旋或无规卷曲的11倍。更惊人的是,该位点周围出现全疏水氨基酸串联序列(以Val、Ile或Phe为主)的概率是其他序列模式的2.5倍,这种"疏水封印"可能为纠缠结构提供热力学稳定性。
【功能关联】物种比较显示:1) S. cerevisiae中酶活性位点显著富集于纠缠区域;2) 所有物种的小分子结合位点均与纠缠组分空间相关;3) H. sapiens特异性表现为金属结合残基的富集;4) RNA结合功能在跨物种数据整合后显现关联性。值得注意的是,蛋白质-蛋白质相互作用界面却呈现纠缠组分的空间排斥现象。
【预测模型】通过筛选8个最具预测力的特征(包括二级结构倾向、序列熵等),建立的机器学习模型在跨物种验证中保持AUROC 0.8的稳定性能。即使控制SASA变量后,这些特征仍保持显著性,证实其独立于溶剂暴露程度的生物学意义。
这项研究首次建立了非共价套索纠缠的"结构-序列-功能"多维关联图谱,其发现具有双重突破性:一方面,β-链优势和疏水序列特征为理解蛋白质折叠动力学提供了新线索;另一方面,功能位点的特异性富集模式暗示这类拓扑结构可能通过空间约束参与活性中心的微环境塑造。特别是金属结合和RNA结合功能的发现,为设计靶向纠缠结构的药物开发策略提供了新思路。该成果也为解释"同义突变导致蛋白功能异常"等临床现象提供了结构生物学基础。
生物通 版权所有