编辑推荐:
为解决序列数据库中蛋白功能注释证据不足的难题,研究人员构建了融合nCas9的1100个APOBEC样胞苷脱氨酶(CDs)功能数据集,开发出机器学习模型AlphaCD。该模型对催化效率(0.92)、脱靶活性(0.84)等关键参数预测准确,并成功应用于Uniprot中21,335种CDs的功能预测,为高通量蛋白功能表征提供新范式。
在序列数据库海量数据与有限功能证据的矛盾背景下,科学家们通过将1100个载脂蛋白B mRNA编辑酶催化多肽样(APOBEC-like)胞苷脱氨酶(CDs)与nCas9融合,在HEK293T细胞中系统测定了催化效率、靶向窗口、基序偏好及脱靶活性,创建了迄今最大单蛋白家族实验验证数据集。这些数据与氨基酸序列、三维结构等八项特征共同训练出机器学习模型AlphaCD,其预测催化效率的准确度达0.92,脱靶活性预测准确度0.84,靶向窗口和催化基序预测准确度分别为0.73和0.78。该模型成功预测了Uniprot中21,335种CDs的功能特征,28个CDs的抽样验证显示预测准确度保持稳定(0.84-0.73)。研究还通过丙氨酸扫描诱变技术降低示例CD的脱靶效应,开发出兼具高保真与高效率的胞嘧啶碱基编辑器(CBE),不仅展示了AlphaCD在高通量蛋白功能表征中的应用价值,更为其他蛋白的快速功能解析提供了创新策略。
生物通 版权所有