基于掩码语言模型的靶序列条件化肽段结合剂设计新策略PepMLM突破"不可成药"靶点限制

时间:2025年8月14日
来源:Nature Biotechnology

编辑推荐:

研究人员针对传统蛋白结合剂设计依赖三维结构的局限性,开发出基于ESM-2语言模型的PepMLM算法,通过C端掩码策略实现仅凭靶蛋白序列即可设计线性肽结合剂。实验证实其设计的肽段能特异性结合NCAM1、AMHR2等靶点,并成功降解亨廷顿病相关蛋白和病毒磷蛋白,为靶向"不可成药"蛋白提供了全新工具。

广告
   X   

在生物医药领域,约80%的疾病相关蛋白因缺乏明确结合位点而被归为"不可成药(undruggable)"靶点,这成为制约新药开发的重大瓶颈。传统基于结构的药物设计方法如RFdiffusion,严重依赖蛋白质的稳定三维构象,对 intrinsically disordered proteins(天然无序蛋白)束手无策。随着语言模型在蛋白质序列分析中的突破性应用,美国杜克大学(Duke University)的研究团队开创性地开发出PepMLM算法,通过改造ESM-2语言模型,仅需靶蛋白氨基酸序列即可设计高亲和力线性肽结合剂,相关成果发表在《Nature Biotechnology》上。

研究团队采用三大关键技术:1) 基于10,000组肽-蛋白复合物数据训练掩码语言模型,采用MMseqs2聚类去冗余;2) 利用AlphaFold-Multimer进行ipTM和pLDDT评分验证结合能力;3) 构建泛素抗体(uAb)系统验证设计的肽段在细胞内的靶蛋白降解效果。实验样本包括TruHD-Q43/Q17M亨廷顿病模型细胞和HEK293T等标准细胞系。

靶序列条件化肽段设计方面,研究显示PepMLM在测试集上达到38%的命中率,优于RFdiffusion的29%。通过将肽段序列置于靶蛋白C端进行全序列掩码,模型能准确重建结合区域,设计肽段的伪困惑度(PPL)显著低于随机序列。AlphaFold预测显示设计肽段与H-2kb MHC(PDB ID: 2O9J)和酪氨酸激酶(PDB ID: 1LCK)等靶标形成稳定复合物,ipTM评分达0.82-0.9。

实验验证部分取得三项突破:1) ELISA证实PepMLM设计的肽段在30nM浓度下即可区分NCAM1与BSA对照;2) 在亨廷顿病模型中,5/6个MSH3靶向肽段使错配修复蛋白MSH3水平显著降低,EPR5526抗体检测显示HTT蛋白降解效果明显;3) 针对尼帕病毒(NiV)、亨德拉病毒(HeV)和人类偏肺病毒(HMPV)的磷蛋白设计降解肽段,Western blot显示多肽能特异性降低病毒蛋白水平,免疫荧光证实HMPV感染被有效抑制。

该研究的创新性体现在:1) 首次实现完全基于序列的靶向肽段设计,摆脱结构依赖;2) 通过uAb系统证明设计肽段的治疗潜力,涵盖癌症、神经退行性疾病和病毒感染等多领域;3) ESM-2模型的精细调优策略为其他蛋白设计任务提供范本。讨论部分指出,未来可整合活性学习优化循环和肽段稳定化修饰,进一步发展CRISPR式的通用蛋白调控工具。这项工作为靶向传统认为"不可成药"的转录因子、融合癌蛋白等开辟了新途径,在精准医疗和抗病毒治疗中具有广阔前景。

生物通微信公众号
微信
新浪微博


生物通 版权所有