利用大规模突变扫描数据集监督学习蛋白质变体效应：一种整合实验特异性映射的跨数据集学习框架

时间：2026年3月9日

来源：Protein Science

编辑推荐：

本文介绍了一种创新的监督学习框架，旨在克服多重变异效应分析（MAVE）数据集中因实验方案差异导致的变体效应评分不一致性难题。该研究聚焦于量化蛋白质变体细胞丰度的VAMP-seq技术，通过构建数据集特异性的标准曲线，将模型训练目标与实验过程建模相结合，成功实现了跨数据集、跨蛋白质的变体丰度效应预测。该框架不仅提升了模型在可解释性尺度上的预测能力，也强调了将高通量数据与低通量验证实验相结合对于准确解读和利用MAVE数据的重要性。

在生命科学领域，准确预测蛋白质上单个氨基酸替换对功能的影响，是理解疾病机制、指导药物开发乃至进行蛋白质工程的核心。近年来，多重变异效应分析（MAVE）技术的兴起，使得在一次实验中并行评估数千个蛋白质变体的效应成为可能，产生了海量的功能数据。然而，一个关键挑战随之浮现：不同实验室、不同实验批次获得的MAVE数据，其变体效应评分往往受到具体实验方法、文库构成等因素的影响，导致评分之间存在实验间的差异，难以直接整合用于训练通用的预测模型。

结果与讨论

2.1 从低通量到高通量丰度评分的实验特异性映射

研究聚焦于一种特定的MAVE技术——通过大规模平行测序的变体丰度分析（VAMP-seq）。该方法通过将表达不同蛋白质变体（融合绿色荧光蛋白GFP）的细胞，根据GFP:mCherry荧光强度比，用流式细胞分选术（FACS）分选到若干个等数量区间（通常为4个），再通过测序计数来估算每个变体对细胞稳态丰度的影响，得出VAMP-seq评分。尽管实验流程相似，但研究人员在整合PTEN、TPMT、CYP2C9、NUDT15、ASPA和PRKN这六个可溶性蛋白的VAMP-seq数据集（约32,000个单氨基酸替换评分）时发现，每个实验获得的VAMP-seq评分与低通量直接测量的细胞蛋白水平（WT归一化的GFP:mCherry比值）之间的映射关系存在显著的实验间差异。例如，ASPA和PRKN的许多变体，其细胞蛋白水平在低通量测量中差异很大，但在VAMP-seq实验中却都被赋予了接近0的评分；而一些PTEN变体则呈现相反趋势。这种非线性、实验特异性的关系表明，VAMP-seq评分提供的是变体效应在特定实验文库中的相对排名信息，而非绝对的丰度度量。因此，直接合并这些数据集进行监督学习会引入噪声。为解决此问题，研究为每个数据集拟合了“标准曲线”，用以描述低通量测量值与高通量VAMP-seq评分之间的映射关系

2.2 跨VAMP-seq数据集监督学习的模型架构

为应对上述挑战，研究者开发了一个模块化的监督学习框架。该框架的核心思想是训练一个能够预测“真实”低通量丰度效应的模型，但在训练时利用VAMP-seq数据。框架包含三个主要部分：首先，使用蛋白质结构预测模型ESM-IF处理输入蛋白质的结构和序列，生成变体与野生型的序列似然比（ESM-IF评分）作为关键特征。其次，一个称为“丰度网络”的密集神经网络整合ESM-IF评分、残基类型的一键编码以及其他手工设计的特征（如溶剂可及性、残基深度、预测的折叠自由能ΔG_f、质量控制降解决定子QCDpred评分等），以预测低通量丰度评分。最后，也是该框架的创新之处，是将丰度网络的预测输出，通过对应数据集的标准曲线模块，转换为预测的VAMP-seq评分。训练时，通过最小化预测VAMP-seq评分与实验VAMP-seq评分之间的平均绝对误差（MAE），来优化丰度网络的参数。训练完成后，移除标准曲线模块，即可得到能够直接预测可解释的低通量丰度评分的模型

2.3 基于标准曲线的模型改进了丰度评分预测

通过留一蛋白交叉验证，研究比较了“使用标准曲线”和“不使用标准曲线”（即丰度网络直接预测VAMP-seq评分）两种训练策略。结果显示，在训练数据中排除部分特殊数据后，整合了标准曲线的模型在多个验证蛋白上取得了更优的预测性能，平均MAE和斯皮尔曼等级相关系数（r_s）均表明其能更好地捕获变体效应。特别是在处理ASPA、PRKN等蛋白中那些实验评分为0、但实际丰度并非最低的变体时，标准曲线模型表现更佳。这表明，在训练中显式地对实验过程进行建模，有助于模型学习到更接近生物学本质的丰度效应。

2.4 与其他预测模型的比较

研究将训练出的丰度模型与现有的变体效应预测工具进行了基准测试，其中包括直接使用ESM-IF的零样本预测。在预测VAMP-seq评分的排名（r_s）和绝对误差（MAE）上，监督训练的丰度模型与ESM-IF表现接近，在部分蛋白上略有优势。更重要的是，监督模型的目标是预测具有明确物理意义的低通量丰度评分，这是一个更具挑战性的任务。在一个独立的测试集（G6PD蛋白的VAMP-seq数据）上，监督模型在排名预测上小幅优于ESM-IF基线。这些结果表明，虽然从现有数据中大幅超越强大的预训练模型存在挑战，但通过精心设计的框架整合实验特异性信息是可行且有益的。

2.5 丰度网络输入特征分析

为探究所设计的结构特征和降解相关特征的重要性，研究尝试了不同的特征组合进行训练。结果发现，仅使用ESM-IF评分和残基类型编码的简化特征集，与使用全部手工特征的完整特征集相比，模型平均性能差异不大。这表明ESM-IF评分本身已包含了丰富的预测信息，而部分手工设计特征（如QCDpred评分）对特定蛋白（如PRKN、ASPA）中通过影响降解通路而非单纯稳定性来改变丰度的变体，可能提供有价值的补充信息，但尚未能通过当前有限的训练数据普遍提升模型性能。

结论

3.1 跨蛋白质与实验的学习

本研究成功开发并应用了一个监督学习框架，用于整合多个VAMP-seq数据集以训练蛋白质变体丰度效应预测模型。核心贡献在于明确了MAVE数据中普遍存在的实验特异性效应，并提出了通过数据集特异性标准曲线在训练中建模该效应的解决方案。尽管当前模型的绝对预测精度提升有限，且受限于低通量验证数据的稀疏性和标准曲线拟合的不确定性，但该工作证明了在利用MAVE数据进行跨数据集学习时，考虑实验过程影响的必要性和可行性。该框架的思路可推广至其他类型的MAVE数据。

3.2 如何更好地利用MAVE数据拟合模型？

这项工作对如何设计和利用MAVE数据以训练机器学习模型、解读变异效应提供了重要启示。首先，高质量的低通量验证数据对于校准高通量评分、理解其生物学意义至关重要。建议未来实验应系统性地在全部评分范围内选择验证变体。其次，需要推动不同实验室和MAVE类型之间低通量验证方法的标准化，以方便数据的广泛整合。在缺乏足够实验数据的情况下，或许可以利用已有的高质量预测模型作为低通量数据的代理。总之，MAVE数据是宝贵的资源，但将其与更直接的分子表型测量相结合，并开发能考量实验过程的建模框架，将使这些数据的效用最大化。

方法

研究详细描述了数据准备、蛋白质结构处理与特征计算（包括ESM-IF评分、预测ΔG_f、QCDpred评分等）、标准曲线拟合、神经网络模型架构与训练协议、超参数调优以及包含标准曲线微调的训练流程。所有分析均基于野生型蛋白结构，采用留一蛋白交叉验证，并使用集成模型来报告最终预测结果。