滑动窗口交互语法模型(SWING):一种通用的肽与蛋白质相互作用语言模型

时间:2025年7月29日
来源:Nature Methods

编辑推荐:

研究人员针对蛋白质语言模型(pLMs)在捕捉蛋白质相互作用(PPIs)方面的局限性,开发了滑动窗口交互语法模型(SWING),通过生化差异构建交互词汇表,成功预测了I类和II类肽-MHC相互作用,并能跨类别预测,为系统性红斑狼疮和1型糖尿病等疾病的免疫治疗提供新工具。

广告
   X   

蛋白质是生命活动的执行者,它们的功能往往通过与其他蛋白质或分子的相互作用来实现。然而,现有的蛋白质语言模型(pLMs)虽然能够很好地学习单个蛋白质的序列和结构信息,但在捕捉蛋白质相互作用(PPIs)方面存在明显不足。这主要是因为传统的pLMs将相互作用的蛋白质序列分别嵌入,然后通过简单组合来预测相互作用,忽略了相互作用中关键的残基接触点信息。此外,序列长度的差异也给模型的应用带来了挑战。

针对这一难题,来自匹兹堡大学(University of Pittsburgh)的研究团队开发了一种名为滑动窗口交互语法(Sliding Window Interaction Grammar, SWING)的创新性交互语言模型(iLM)。这项研究发表在《Nature Methods》上,为解决蛋白质相互作用预测这一关键问题提供了新的思路和方法。

研究人员采用了几个关键技术方法:1) 基于生化差异构建交互词汇表,将相互作用的蛋白质序列转化为"语言";2) 使用Doc2Vec模型生成交互嵌入;3) 应用XGBoost等监督学习算法进行预测;4) 利用来自NetMHCpan和NetMHCIIpan的质谱数据训练模型;5) 通过交叉验证和跨预测评估模型性能。

研究结果部分,文章通过多个实验验证了SWING模型的优越性:

"SWING learns the language of pMHC interactions"部分显示,SWING能够准确预测I类和II类肽-MHC(pMHC)相互作用,在交叉验证中AUROC分别达到0.72和0.90。更重要的是,I类SWING模型能够跨预测II类相互作用(AUROC=0.74-0.77),这是现有方法无法实现的。

"SWING captures pMHC interaction biology"部分证实,模型性能不受生化指标选择(极性或疏水性)和MHC序列长度的影响。特别值得注意的是,当肽长度小于9个氨基酸时,模型性能显著下降,这与已知的MHC结合核心区域生物学特性一致。

"SWING transfers knowledge across distinct interactions"部分展示了模型的强大泛化能力。人类SWING模型能够预测小鼠MHC-II相互作用(AUROC=0.85-0.88),在系统性红斑狼疮相关H-2-IEk和1型糖尿病相关H-2-IAg7等疾病相关等位基因上也表现出色。

"SWING enables zero-shot pMHC interaction discovery"部分显示,在实验生成的免疫肽组数据上,SWING的召回率优于NetMHCIIpan和MixMHC2pred等现有方法,特别是在处理非标准长度肽段时优势明显。

"Protein interaction perturbation by missense variants"部分将SWING应用于错义突变对蛋白质相互作用的破坏预测,AUROC达到0.81,优于AlphaMissense等现有变异效应预测工具。

"SWING is a generalizable interaction architecture"部分通过与其他建模方法的比较,证实SWING独特的iLM架构在跨类别和跨物种预测中的优势。

这项研究的结论部分强调,SWING作为一种通用的交互语言模型,通过将蛋白质相互作用转化为生化语言,成功克服了传统pLMs的局限性。它不仅能够准确预测各类蛋白质相互作用,还具有出色的零样本学习和知识迁移能力。在免疫治疗和疾病相关变异研究等领域具有重要应用价值。未来,该方法可进一步扩展应用于DNA、RNA和小分子等更广泛的分子相互作用研究,为理解复杂的生物调控网络提供新的工具。

研究团队特别指出,虽然SWING在多个任务中表现出色,但它不是一个通用的生物相互作用基础模型,需要针对特定生物学背景进行定制训练。这为未来的方法改进指明了方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有