编辑推荐:
研究人员针对变构蛋白开关设计中结构域插入位点预测困难的问题,开发了机器学习流程ProDomino。该研究通过构建半合成蛋白序列数据集,利用ESM-2衍生特征和掩码策略,成功预测了大肠杆菌和人类细胞中多个生物技术相关蛋白的插入位点,并构建了光/化学调控的CRISPR-Cas9和-Cas12a基因组编辑器。这项发表于《Nature Methods》的研究为单组分变构蛋白的快速设计提供了新范式。
在蛋白质工程领域,如何精确预测结构域插入位点一直是制约变构蛋白开关设计的瓶颈问题。传统方法依赖大量实验筛选,且难以推广到不同蛋白家族。这种局限性严重阻碍了光控或化学诱导蛋白开关的开发,而这类开关在生物技术和医学应用中具有重要价值。
为解决这一挑战,来自德国海德堡大学(Heidelberg University)的研究团队开发了名为ProDomino的机器学习流程。这项发表在《Nature Methods》的研究通过构建包含174,872个天然蛋白序列的数据集,训练出能够准确预测结构域插入位点的模型,成功实现了"一步式"变构蛋白设计。
研究采用的关键技术包括:1)基于CATH-Gene3D数据库构建半合成蛋白序列数据集;2)利用ESM-2生成蛋白质序列嵌入特征;3)开发具有位置掩码策略的机器学习模型;4)在大肠杆菌和人类细胞系(HEK293T)中进行功能验证;5)通过荧光素酶报告基因和下一代测序(NGS)评估蛋白活性。
主要研究结果
构建人工结构域插入数据集
研究人员从天然蛋白中筛选出202种插入结构域和168种母体结构域,创建了包含174,872个序列的数据集。分析显示插入位点在母体结构域中呈双峰分布,且PDZ结构域是最常见的插入类型。
ProDomino准确预测插入位点
比较不同训练策略发现,采用严格"单一代表"数据集分割和位置掩码的模型表现最佳。在细菌转录因子AraC上的验证显示,模型准确预测了已知的变构位点I113和S170,AUROC达到0.84。
设计光控抗生素抗性酶
模型预测的PAC(嘌呤霉素乙酰转移酶)和CAT(氯霉素乙酰转移酶)插入位点经实验验证,成功构建了光控变体。PAC-LOV2在HEK293T细胞中实现光控嘌呤霉素抗性,而CAT-LOV2使大肠杆菌生长呈现20倍光暗差异。
开发可调控CRISPR基因组编辑器
在Cas9中,模型预测的四个非经典插入位点均支持功能性dCas9-VPR-LOV2融合,其中三个表现出显著光敏感性。对Cas12a的预测显示其具有多个插入耐受区域,最终构建的Cas12a-GR2(糖皮质激素受体2)变体在皮质醇诱导下编辑效率达野生型的70%。
这项研究的创新性在于首次利用机器学习方法系统解决了结构域插入位点预测难题。ProDomino模型不仅能够识别插入耐受位点,还能预测具有变构调控潜力的关键区域。研究构建的光控抗生素抗性酶和化学诱导CRISPR-Cas12a等工具,为精准调控细胞功能提供了新方法。特别值得注意的是,与传统方法相比,该研究将蛋白开关开发时间从数月缩短至6个月,显著提高了工程效率。
这些发现为蛋白质工程设计开辟了新途径,未来结合新兴的蛋白质状态切换设计方法,有望实现更复杂的合成生物学回路构建。研究建立的机器学习框架和验证策略,也为其他蛋白质工程问题提供了可借鉴的方法学范式。
生物通 版权所有