深度学习基因扰动预测模型性能评估:简单线性基线方法仍具优势

时间:2025年8月5日
来源:Nature Methods

编辑推荐:

本研究针对当前深度学习基础模型在单细胞转录组扰动效应预测中的性能进行了系统评估。研究人员比较了scGPT、scFoundation等五种基础模型及GEARS、CPA两种深度学习模型与简单线性基线方法在单/双基因扰动转录组变化预测中的表现。结果表明,现有复杂模型均未能超越简单的"无变化"和"加性"基线模型,这对指导未来方法学开发具有重要启示意义。该研究强调了在单细胞组学领域进行严格基准测试的必要性。

广告
   X   

在生物医学研究领域,准确预测基因扰动对细胞转录组的影响一直是科学家们追求的目标。随着深度学习技术在单细胞组学分析中的广泛应用,scGPT、scFoundation等基础模型(foundation models)相继问世,这些模型声称能够预测基因表达变化。然而,这些复杂模型是否真的超越了传统方法?来自欧洲分子生物学实验室(EMBL)的研究团队在《Nature Methods》发表了一项引人深思的研究,对当前主流预测模型进行了系统评估。

研究团队选取了Norman等人建立的K562细胞CRISPR激活系统数据集,包含100个单基因和124对双基因扰动数据。通过设计严谨的基准测试框架,比较了五种基础模型(scGPT、scFoundation、scBERT、Geneformer和UCE)与两种专门模型(GEARS和CPA)的性能。令人惊讶的是,所有复杂模型在预测双基因扰动效应时,表现均不及简单的"加性模型"(additive model)——该模型仅将单基因扰动的对数倍变化(logarithmic fold changes, LFCs)相加作为预测值。

关键技术方法包括:1)采用L2距离和Pearson delta相关指标评估预测准确性;2)通过经验零分布(Efron's empirical null)方法鉴定遗传相互作用;3)构建线性模型(LM)将基因和扰动表示为低维向量;4)使用留出法评估模型对未见扰动的预测能力。所有分析均基于公开的K562和RPE1细胞系扰动数据集。

研究结果显示:

在"双基因扰动预测误差"方面,所有深度学习模型的L2距离均显著高于加性基线。即使是表现最佳的模型,其预测值与观测值之间仍存在明显偏差。

关于"相互作用预测准确性",研究发现现有模型主要预测缓冲型相互作用(buffering interactions),而很少正确预测协同作用(synergistic interactions)。特别值得注意的是,多个模型对血红蛋白基因HBG2和HBZ的双重扰动预测出现系统性偏差。

在"单基因未见扰动预测"测试中,简单线性模型使用来自Replogle数据的预训练扰动嵌入(perturbation embeddings)时,表现优于所有深度学习模型。这表明预训练单细胞图谱数据带来的益处有限,而基于扰动数据的预训练更能提高预测性能。

研究结论指出,当前深度学习基础模型在基因扰动效应预测任务中,尚未展现出超越简单线性模型的优势。这一发现对领域发展具有重要指导意义:1)强调在方法开发中基准测试的关键作用;2)揭示现有模型可能过度参数化;3)为未来研究指明了改进方向。虽然深度学习在单细胞组学其他领域已证明有效,但基因扰动预测仍面临挑战,需要更创新的建模策略。

该研究通过严谨的实验设计和全面的性能评估,为领域提供了宝贵的参考基准。研究团队特别建议未来工作应关注:1)更丰富的数据集验证;2)改进模型架构;3)开发更有效的预训练策略。这些发现将推动基因扰动预测领域向着更可靠、更实用的方向发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有