基于蛋白质语言模型与图像修复的细胞类型特异性亚细胞定位预测新方法(PUPS)

时间:2025年5月14日
来源:Nature Methods

编辑推荐:

来自某研究团队的研究人员针对现有蛋白质亚细胞定位预测模型无法兼顾细胞类型特异性和未见过蛋白质(Unseen Proteins)通用性的问题,开发了PUPS(Prediction of Unseen Proteins’ Subcellular localization)方法。该方法创新性整合蛋白质语言模型与图像修复技术,首次实现同时利用蛋白质序列和细胞图像特征,不仅能预测跨细胞系的差异定位,还可捕捉单细胞水平变异。实验验证表明该模型可有效预测训练集(人类蛋白质图谱)外的新实验数据,为疾病相关蛋白质错误定位研究提供新工具。

广告
   X   

蛋白质在细胞内的精确定位(Subcellular localization)与其功能发挥密切相关,定位异常往往导致疾病发生。现有技术存在双重局限:数据集仅覆盖有限蛋白质-细胞系组合,预测模型要么缺乏细胞类型特异性,要么无法推广到未知蛋白质。

这项研究提出的PUPS(Prediction of Unseen Proteins’ Subcellular localization)框架突破性融合两种人工智能技术:通过蛋白质语言模型(Protein language model)解析序列特征实现对新蛋白质的泛化预测,借助图像修复模型(Image inpainting model)提取细胞图像特征,精准捕捉单细胞水平变异(Single-cell variability)和细胞类型特异性(Cell-type specificity)。

验证实验取得重要进展:模型成功预测了训练数据(人类蛋白质图谱Human Protein Atlas)范围外的新实验数据,包括由基因突变引发的蛋白质定位改变。该技术为研究蛋白质在不同细胞系中的差异分布、单细胞微环境下的定位波动,以及疾病相关突变导致的错误定位(Mislocalization)提供了全新解决方案。

生物通微信公众号
微信
新浪微博


生物通 版权所有