Systema框架:超越系统性变异评估遗传扰动响应预测的新范式

时间:2025年8月26日
来源:Nature Biotechnology

编辑推荐:

本研究针对功能基因组学中遗传扰动转录响应预测的挑战,开发了Systema评估框架。研究人员发现现有方法易受系统性变异(systematic variation)干扰,导致预测性能被高估。通过量化10个数据集中的系统性变异,团队揭示了标准评估指标(PearsonΔ、PearsonΔ20)的局限性,并提出以扰动特异性效应为核心的新评估策略。该研究为区分真实生物学效应与技术偏差提供了重要工具,对基因功能解析和药物开发具有方法论意义。

广告
   X   

在功能基因组学领域,准确预测基因扰动引发的转录响应犹如破解生命密码的关键钥匙。这项能力不仅关乎基础研究中对基因功能的解析,更直接影响着疾病机制研究和药物开发的效率。然而,当前高通量扰动筛选技术面临一个根本性矛盾:虽然单细胞测序技术能捕获精细的转录变化,但实验上穷尽所有可能的基因扰动组合犹如天文数字。这使得计算模型预测未经验证的扰动效果显得尤为重要。

近年来,CPA、GEARS和scGPT等先进算法声称能够预测未见遗传扰动的转录响应。但《Nature Biotechnology》最新研究揭示了一个令人不安的现象:这些复杂模型的预测性能可能被系统性变异(systematic variation)——即扰动细胞与对照细胞间由技术偏差或生物学混杂因素导致的差异——严重干扰。这种变异如同迷雾般遮蔽了真实的生物学信号,使得评估模型的真实预测能力变得困难重重。

为拨开这层迷雾,来自洛桑联邦理工学院等机构的研究团队开发了Systema评估框架。这项研究首先通过十大数据集(涵盖三种技术平台、五种细胞系)的基准测试发现:简单基线模型(如扰动细胞均值)的表现竟与复杂模型旗鼓相当。深入分析显示,这种"虚假繁荣"源于系统性变异对标准评估指标(如PearsonΔ)的干扰。例如在Norman数据集(靶向红细胞分化和细胞周期相关基因)中,扰动细胞显著富集于应激反应通路;而在Replogle RPE1数据中,46%扰动细胞停滞在G1期(对照仅25%),这种系统性差异导致预测评分虚高。

研究团队创新性地提出以"扰动中心"(perturbed centroid)替代传统对照细胞作为参考点,有效隔离了系统性变异。结果显示,在此框架下所有模型的PearsonΔ评分显著降低,证实预测真实扰动特异性效应远比传统评估显示的困难。但引人注目的是,经过微调的scGPT模型在染色体不稳定性(CIN)分类任务中AUC达0.73,表明大规模预训练模型可能捕获了功能相关基因群的协同效应。

关键技术方法包括:1)设计扰动均值(perturbed mean)和匹配均值(matching mean)非参数基线模型;2)采用余弦相似度量化系统性变异程度;3)开发基于扰动中心的参考体系;4)引入中心点准确率(centroid accuracy)评估指标;5)整合GSEA和AUCell分析揭示通路富集模式。数据来源于Adamson、Norman等6个研究的单细胞扰动数据集,涵盖CRISPRa/i、RNA干扰等技术。

【系统性变异主导预测评分】

通过余弦相似度分析发现,Adamson和Norman数据集系统性变异程度最高(平均相似度>0.5),而Frangieh数据集最低。这种变异与PearsonΔ评分高度相关(r=0.91-0.95),证实标准指标易受干扰。

【参考体系重构揭示真实性能】

将参考点改为扰动中心后,预测评分与系统性变异的相关性降至0.21。scGPT在未见单基因扰动任务中表现略优,但所有模型绝对性能大幅下降,凸显预测真实生物学效应的挑战性。

【功能模块的可预测性】

中心点准确率分析显示,scGPT能部分区分核糖体基因亚细胞定位(胞质vs线粒体)和mRNA加工相关扰动,表明模型可能捕获了功能模块的协同效应。

这项研究从根本上重新定义了遗传扰动响应的评估范式。Systema框架的价值不仅在于揭示了当前模型的局限性,更提供了区分"技术假象"与"真实生物学"的实践工具。作者特别指出,未来研究应关注两个方向:一是构建更具异质性的扰动面板以减少系统性偏差,二是将预测结果与实际表型(如细胞形态、空间特征)关联验证。随着光学池化筛选等新技术的发展,该框架有望成为连接转录组预测与多模态表型分析的桥梁,最终推动从基因扰动到功能解析的精准解码。

生物通微信公众号
微信
新浪微博


生物通 版权所有