压缩ESM家族知识:通过协同蒸馏实现序列专用蛋白质语言模型在变异效应预测中的高性能

时间:2026年3月31日
来源:Nature Methods

编辑推荐:

推荐:当前基于蛋白质语言模型(PLM)的变异效应预测(VEP)方法通常依赖额外的结构或进化(MSA)信息以提高准确性,但这增加了复杂性和应用限制。本研究针对此问题,探索了仅依赖原始序列的PLM(如ESM家族)的性能极限。研究人员开发了一个协同蒸馏(Co-distillation)框架,通过利用家族内多个模型的互补性,让模型相互学习,在不引入外部信息的情况下,显著提升了序列专用PLM的VEP性能。所得到的VESM模型在多个基准测试中达到了最先进的水平,甚至在临床队列中能够量化变异对连续表型的严重程度,为蛋白质工程和临床遗传学提供了强大且通用的工具。

广告
   X   

论文解读
在生命科学的舞台上,预测一个基因变异会如何影响蛋白质功能,进而对人体健康产生什么后果,是一项基础且至关重要的挑战,即变异效应预测(Variant Effect Prediction, VEP)。这项技术是人类遗传学、药物开发和蛋白质工程等领域的基石。近年来,基于海量蛋白质序列数据训练出的蛋白质语言模型(Protein Language Models, PLMs)为VEP带来了新的希望。它们就像能够理解“蛋白质语言”的AI,通过学习序列中的模式来预测变异的影响。
然而,一个普遍的共识是,要获得顶级的预测精度,仅仅给模型“阅读”蛋白质序列是不够的。当前性能最佳的方法,如AlphaMissense、SaProt等,都是“混合型”选手——它们将PLM与蛋白质三维(3D)结构、多序列比对(Multiple Sequence Alignment, MSA)甚至人群遗传学数据相结合。这种方法虽然有效,但也带来了“成长的烦恼”:获取高质量的结构或MSA数据成本高昂、计算复杂,且并非对所有蛋白质都可行。更重要的是,这种对额外信息的依赖可能引入偏见,并让模型在缺少这些信息时表现不佳。那么,一个令人深思的问题出现了:那些只“阅读”原始、未比对的蛋白质序列的“纯粹”PLM,其性能是否真的存在无法突破的“天花板”?
一项发表在《Nature Methods》上的研究向这一主流观点发起了挑战。该研究团队认为,仅从序列中捕获的进化信号本身应该蕴含足够的信息。他们聚焦于广泛使用的进化尺度建模(Evolutionary Scale Modeling, ESM)家族模型,这些模型正是典型的序列专用PLM。研究人员观察到,即使是同一家族的ESM模型,在预测不同蛋白质的保守结构域时,也表现出令人惊讶的互补性——一个模型“看”不到的信号,另一个模型却能清晰捕捉。这暗示着,整个模型家族所蕴含的进化知识,可能比任何一个单一模型都要丰富。
基于这一洞察,研究人员没有去整合外部数据,而是转向挖掘模型家族内部的“集体智慧”。他们提出了一个创新的协同蒸馏(Co-distillation)框架。其核心思想是一种“最大置信度”策略:对于一个给定的蛋白质变异,让家族内所有ESM模型都给出自己的预测,然后选择那个对野生型氨基酸最“自信”(即给出最小对数似然比,LLR)的预测结果。这个最自信的预测,被认为最有可能捕捉到了该位置关键的进化约束信号。在每一轮训练中,所有模型都以此“集体最自信”的信号为老师,相互学习、共同提高。通过这种迭代式的知识提炼,研究团队成功地将整个ESM家族的知识“压缩”进了一个单一的、高性能的模型——VESM。
为了开展这项研究,作者们运用了多项关键技术方法。首先,他们基于ESM家族11个不同大小的预训练模型,为人类蛋白质组中所有可能的错义突变计算了LLR分数,并通过“最大置信度”聚合创建了ESMIN数据集,作为协同蒸馏的“黄金标准”训练信号。其次,他们设计了一种参数高效的训练策略,在协同蒸馏过程中仅微调每个ESM模型的最后一层和语言模型头,以高效利用计算资源并防止灾难性遗忘。此外,研究使用了来自ProteinGym的大规模深度突变扫描(Deep Mutational Scan, DMS)基准和ClinVar临床变异数据库进行全面的性能评估。为了探究模型在真实世界中的效用,他们还利用了英国生物样本库(UK Biobank)的基因型-表型汇总统计数据,将VESM预测与临床定量表型的效应大小相关联。
研究结果
跨多个PLM的最大置信度策略用于检测进化信号
研究人员发现,不同的ESM模型在检测特定的进化保守结构域(如KRAB和BRICHOS结构域)时存在显著的互补性。理论分析表明,当不同模型对致病性变异的预测方差远大于对良性变异的预测方差时,采用“最大置信度”(取最小LLR)的聚合策略优于简单的平均策略。他们将此策略应用于整个ESM家族,得到的ESMIN预测在ClinVar和DMS基准测试中均超越了所有单个模型及其他集成方法,证明了从模型家族中富集进化信号的有效性。
最大置信度协同蒸馏显著提升单个ESM模型在VEP及下游任务中的性能
研究团队利用ESMIN信号对ESM家族模型进行了一轮协同蒸馏。结果显示,所有模型的VEP性能都获得了显著提升,其中小参数量模型(如ESM2-8M)的提升尤为惊人。更重要的是,经过蒸馏的大型模型(如ESM2-3B)的性能甚至超过了作为教师的ESMIN本身,出现了“学生超越老师”的现象。广泛的消融实验表明,即使仅使用1%的序列数据进行训练,模型也能获得绝大部分性能增益,证明了方法的有效性和泛化能力。此外,使用蒸馏后模型的嵌入(embeddings)进行下游任务微调,在多个变异水平和蛋白质水平任务上都取得了更好或相当的性能,表明协同蒸馏提升了模型的通用表示能力,而非导致灾难性遗忘。
迭代平均协同蒸馏将ESM家族有效压缩为单一PLM
第一轮协同蒸馏后,对蒸馏后模型进行平均集成仍能获得性能提升,但此时平均策略已优于最大置信度策略。基于此,研究人员对表现最好的四个模型进行了多轮以平均策略为主的协同蒸馏。经过三轮迭代,最大的ESM2-3B模型成功匹配了集成模型的性能,这个收敛的模型被命名为VESM-3B。随后,通过知识蒸馏,VESM-3B被进一步压缩到更小的参数量模型(VESM-650M, 150M, 35M),它们在保持绝大部分性能的同时大大降低了计算成本。
序列专用VESM模型在预测变异临床影响方面超越现有最先进方法
在一个独立的、大规模的ClinVar基准测试中,所有序列专用的VESM模型都取得了卓越的性能,其曲线下面积(AUC)与需要结构或MSA信息的复杂混合方法(如SaProt, PoET)相当甚至更优。VESM-3B在保持高预测准确率的前提下,能够对更大比例的ClinVar变异进行高置信度注释。与著名的AlphaMissense模型相比,VESM-3B的性能不依赖于变异的人群等位基因频率(Minor Allele Frequency, MAF),在区分稀有的良性变异和致病性变异任务上表现更稳健,避免了因使用人群数据可能带来的循环论证问题。
结合结构信息在临床和DMS基准上进一步提升VESM
研究还探索了以模块化方式为VESM融入结构信息。通过将VESM-3B的知识蒸馏到结构感知模型ESM3的序列骨干上,得到了VESM3模型。结合VESM-3B和VESM3的集成模型VESM++,在涵盖人类DMS、非人类DMS(按适应度/活性和结合/稳定性等分类)的全面基准测试中,取得了全方位的领先性能。分析表明,VESM带来的性能提升在病毒蛋白上尤为显著,且这种提升能够有效地从序列模型迁移到结构模型。
VESM能够预测错义变异对英国生物样本库中连续临床表型影响的严重程度
研究最后将VESM的应用从二分类拓展到连续表型预测。通过分析英国生物样本库中基因与血液生化指标表型的关联数据,他们发现VESM-3B的变异级别预测分数与全基因组关联研究(Genome-Wide Association Study)估计的单变异效应大小(β系数)显著相关。VESM预测的方向和强度与基于预测的功能丧失性(Predicted Loss-of-Function, pLoF)变异进行的基因负荷检验(Burden Test)结果高度一致,甚至在许多关联中比仅基于错义变异的检验更为敏感。这证明VESM评分能够定量反映变异对临床结局的严重程度,为其在人类遗传学研究中的应用开辟了新途径。
研究结论与意义
这项研究有力地挑战了“序列专用蛋白质语言模型性能固有受限”的观点。通过开发高效的协同蒸馏框架,研究团队成功挖掘并浓缩了ESM模型家族内部捕获的进化信号,无需任何额外的结构或遗传学数据,就显著提升了序列专用PLM的变异效应预测精度。
其核心结论是,通过“最大置信度”策略聚合模型家族的预测,并以此进行迭代式协同蒸馏,可以训练出性能卓越的单一模型VESM。VESM家族模型在多个临床和实验VEP基准测试中,匹配或超越了当前需要复杂外部信息(如3D结构、MSA)的最先进方法。更重要的是,VESM展现出了不依赖人群等位基因频率的稳健预测能力,在区分罕见变异方面具有独特优势。研究还将VESM的应用价值从二分类的致病性判断,拓展到了对连续临床表型效应程度的量化,与真实世界遗传关联数据相印证。
这项工作的意义深远。首先,它证明仅从蛋白质序列中就能提取出足够进行高精度VEP的信息,为开发更简洁、更通用、计算成本更低的预测工具指明了方向。其次,VESM模型本身及其协同蒸馏框架,为蛋白质工程、功能注释和临床遗传学解读提供了一个强大的新工具。尤其对于资源有限或缺乏结构/MSA数据的场景,高性能的序列专用模型价值巨大。最后,该研究展示了如何通过挖掘和整合现有模型家族内部的“集体智慧”来突破性能瓶颈,这一思路对人工智能和计算生物学其他领域的研究也具有重要的启发意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有