综述:蛋白质语言模型:应用与前景

时间:2025年12月27日
来源:Journal of Proteome Research

编辑推荐:

这篇综述系统阐述了蛋白质语言模型(pLMs)如何借鉴自然语言处理技术,将氨基酸序列视为“语言”,通过深度学习(如Transformer架构)在百万级序列数据中学习复杂模式。文章重点介绍了pLMs在蛋白质结构预测(如ESM-2、RGN2)、功能注释(如酶活性EC编号预测)、新序列生成(如ProGen、ProtGPT2)、翻译后修饰(PTM)预测、突变效应分析以及蛋白质-蛋白质相互作用(PPI)和抗原-抗体结合预测等关键领域的应用。与传统方法(如BLAST、分子动力学模拟MD)相比,pLMs能更快地提供见解,但同时也面临可解释性、数据偏差、计算资源需求大等挑战。未来,pLMs与多组学数据、结构生物学及物理模型的结合,有望在药物研发、个性化医疗和基础生物学领域带来革命性突破。

广告
   X   

蛋白质是生命活动的主要执行者,理解其结构、功能和相互作用是现代生物学的核心。然而,传统的蛋白质研究方法,如序列比对和同源建模,在处理日益复杂的蛋白质数据时常常力不从心。近年来,一种源自自然语言处理(NLP)领域的人工智能技术——大语言模型(LLMs),被成功应用于蛋白质研究,催生了蛋白质语言模型(pLMs),为蛋白质组学带来了新的机遇和挑战。
大语言模型及其在蛋白质领域的适配
大语言模型,如众所周知的GPT和BERT系列,是基于Transformer架构的先进人工智能系统。Transformer的核心是自注意力(Self-Attention)机制,它能同时处理序列中的所有单元(在文本中是词或子词,在蛋白质中是氨基酸),并捕捉它们之间的远程依赖关系。当我们将蛋白质序列(例如“MVLSPADKT”)视为一种特殊的“语言”,每个氨基酸就是一个“单词”(即令牌,token)时,Transformer模型便能被迁移到蛋白质领域。
蛋白质语言模型的构建始于令牌化(Tokenization),即将氨基酸序列拆分成单个氨基酸令牌。随后,这些令牌被转换为数值向量(称为嵌入,embeddings),这些向量编码了序列上下文和生化特征。模型通过在海量蛋白质序列数据库(如UniRef、UniProt)上进行自监督学习(例如掩码语言建模,即预测被掩盖的氨基酸)来训练。至关重要的是,为了避免因训练集和测试集中存在高度同源的序列而高估模型性能,当前的最佳实践是采用基于同源性的评估策略,将序列按相似性聚类,并将整个聚类分配给训练、验证或测试集。预训练后的pLM可以生成富含功能信号的上下文嵌入,这些嵌入可直接用于下游任务,或通过微调(Fine-tuning)来适应特定的预测需求,如结构或功能预测。
蛋白质语言模型的应用
蛋白质语言模型的应用范围极其广泛,几乎涵盖了蛋白质研究的各个核心领域。
  • 蛋白质序列生成
    传统蛋白质设计方法,如定向进化或理性设计,过程缓慢且成本高昂。pLMs,如ProtGPT2和ProGen,能够高效地生成具有特定功能或结构特性的全新蛋白质序列。ProGen通过使用控制标签(如蛋白质家族)来指导序列生成,成功产生了具有溶菌酶活性的人工蛋白质,其催化效率与天然蛋白质相当,尽管序列相似性低至31.4%。这为快速设计治疗性抗体、工业酶等开辟了新途径。
  • 蛋白质功能预测
    与BLAST等基于序列相似性的工具不同,pLMs能够捕捉更深层次的上下文和进化信号,从而更准确地预测蛋白质功能,如酶活性(EC编号)和结合位点。模型如ESM-2、ProtBERT通过其生成的嵌入,在预测基因本体(Gene Ontology)术语方面表现出色。专门化的模型如EnzBERT和FEDKEA进一步提升了酶功能分类的精度。pLMs甚至能整合基因组上下文信息来预测未表征蛋白质的功能,这在宏基因组数据分析中尤为有价值。
  • 二级结构与接触预测
    预测蛋白质的局部折叠模式(如α-螺旋、β-折叠)和残基间的空间接触,是理解三维结构和功能的关键。pLMs如ProteinBERT、MSA Transformer和ProtTrans在此类任务上达到了与专用工具相媲美甚至更优的准确性。值得注意的是,像RGN2这样的端到端模型,将pLM嵌入与循环几何网络结合,能够直接预测蛋白质主链的三维坐标,展示了pLMs在结构生物学中的强大潜力。
  • 翻译后修饰预测
    翻译后修饰(PTM)如磷酸化、泛素化等,对蛋白质功能调控至关重要。pLMs如DeepPTM利用ProtBERT等模型的嵌入,能够高精度地预测PTM位点。PTM-GPT2等模型通过提示微调(Prompt-based Tuning)技术,进一步提升了多类型PTM预测的性能。然而,对于严重依赖结构或细胞环境的PTM(如O-糖基化),仅基于序列的模型仍有局限。
  • 进化与突变效应预测
    pLMs能够预测氨基酸替换对蛋白质稳定性、功能和适应度的影响,这对于理解疾病变异和指导蛋白质工程至关重要。ESM系列模型等能够在“零样本”(Zero-shot)设置下(即无需特定任务的训练数据)有效预测突变效应,减少了传统方法对多序列比对(MSA)的依赖,并避免了数据循环性问题。
  • 生物物理性质预测
    pLMs可直接从序列预测蛋白质的多种生物物理性质,如溶解度、稳定性(如ΔG、熔点温度)、聚集倾向等。例如,ESMtherm通过微调ESM-2,能够预测蛋白质结构域的稳定性变化。类似地,NetSolP等模型在预测蛋白质在大肠杆菌中的可溶性表达方面达到了领先水平。
  • 蛋白质-蛋白质相互作用与结合亲和力预测
    pLMs已被用于预测蛋白质之间是否相互作用以及它们的结合强度。早期方法通常将相互作用的蛋白质序列单独或简单拼接后输入模型。新兴的模型如MINT,通过交叉注意力(Cross-Attention)机制联合处理多个蛋白质序列,显著提升了对蛋白质-蛋白质相互作用(PPI)和结合亲和力变化的预测精度。在抗体-抗原领域,DG-Affinity和AntiFormer等模型仅凭序列信息就能高精度预测结合亲和力。
  • 抗原-受体与抗原-抗体结合预测
    在免疫学中,预测T细胞受体(TCR)或抗体与抗原的结合是关键挑战。pLMs如tcrLM、AntiBERTy等,通过在海量免疫受体序列上训练,能够从其序列嵌入中捕捉到结构与功能特征,从而高精度预测结合特异性。这类模型为疫苗设计、免疫治疗和个性化医疗提供了高效的计算机辅助筛选工具。
挑战与局限性
尽管前景广阔,pLMs在蛋白质组学中的应用仍面临诸多挑战:
  1. 1.
    可解释性:模型如同“黑箱”,其内部决策机制难以用生物学原理进行解释。
  2. 2.
    数据偏差:训练数据库(如UniProt)存在物种和蛋白质家族分布不均的问题,可能导致模型预测产生偏差。
  3. 3.
    训练-测试泄露:评估基准中可能存在序列重叠,导致模型性能被高估。
  4. 4.
    令牌化:蛋白质序列缺乏自然的“词汇”边界,通常以单个氨基酸为令牌,可能无法有效捕捉高阶模体。
  5. 5.
    通用性:模型对罕见或未见过的蛋白质家族预测性能可能下降。
  6. 6.
    计算资源:大型模型训练和推理需要巨大的计算资源,且处理长序列存在效率瓶颈。
  7. 7.
    微调复杂性:在有限标注数据上微调大型模型容易过拟合,需要谨慎的参数调整策略。
未来展望
未来,pLMs的发展将聚焦于多个方向:
  • 多模态融合:将序列信息与结构、进化、甚至其他组学数据结合,构建更强大的多模态模型。
  • 动态与上下文建模:改进对蛋白质构象变化、内在无序区域(IDRs)以及在细胞环境中的行为预测。
  • 可解释性与可靠性:开发新技术以增强模型的可解释性,并建立更严谨的基准来评估模型的真实泛化能力。
  • 转化应用:pLMs驱动的蛋白质设计和变异效应预测(如AlphaMissense)将在药物研发、疾病诊断和治疗中发挥越来越重要的作用。
  • 评估框架:建立共享的模型库和评估标准,以应对pLMs的快速迭代,帮助研究者选择最适合的工具。
结论
蛋白质语言模型通过将氨基酸序列转化为富含信息的上下文嵌入,彻底改变了我们分析和理解蛋白质的方式。它们在结构预测、功能注释、新蛋白设计及相互作用建模等方面展现出巨大潜力,正逐步成为蛋白质研究中不可或缺的工具。尽管在可解释性、偏差和计算成本等方面存在挑战,但随着技术的不断进步以及与实验生物学的更紧密结合,pLMs有望在解码生命语言、加速生物医学发现和工程应用方面发挥核心作用,最终推动基础科学和生物技术产业的革新。

生物通微信公众号
微信
新浪微博


生物通 版权所有