Pertpy:单细胞扰动数据分析的一站式高性能框架

时间:2026年1月2日
来源:Nature Methods

编辑推荐:

这篇发表于Nature Methods的论文介绍了Pertpy,一个用于单细胞扰动数据(scRNA-seq)分析的端到端Python框架。该框架解决了当前方法(如MUSIC、ScMAGeCK等)主要局限于CRISPR数据分析、缺乏扩展性以及难以整合生物学背景信息等痛点。Pertpy作为scverse生态系统的一部分,提供了超过100种可组合的分析功能(包括Mixscape、scCODA、DIALOGUE等方法的优化实现)、超过30个经过协调的公共数据集访问以及丰富的元数据(如DepMap、GDSC、CMap)注释功能。其利用JAX库实现的稀疏和内存高效计算,显著提升了分析速度,并通过三个典型应用案例(CRISPRa筛选、药物响应解卷积、TNBC治疗响应分析)展示了其在发现新基因程序、整合多组学背景和解码复杂生物机制方面的强大能力。该框架旨在成为大规模、多模态扰动数据分析的标准化工具。

广告
   X   

Abstract
随着单细胞技术的进步,研究人员已经能够在多种细胞系和组织中,在大量遗传、化学、环境或疾病扰动下测量细胞分辨的分子状态。当前的方法侧重于差异比较,或者局限于多条件设置下的特定任务,且多从纯粹的统计学角度出发。这类研究在数量、规模和复杂性上的快速增长,需要一个能够考虑现有生物学背景的可扩展分析框架。本文介绍了pertpy,一个基于Python的模块化框架,用于分析大规模单细胞扰动实验。Pertpy提供了对协调的扰动数据集和元数据库的访问,以及众多快速、用户友好的成熟和新颖方法的实现,例如自动元数据注释或扰动距离,以高效分析扰动数据。作为scverse生态系统的一部分,pertpy与现有的单细胞分析库互操作,并设计为易于扩展。
Main
理解细胞对刺激的反应对于描述生物现象和机制至关重要。单细胞数据已越来越多地从观察性实验转向扰动实验,涵盖遗传修饰、化学处理、物理干预、环境变化、疾病及其组合。Perturb-seq、CROP-seq和Sci-plex等技术利用单细胞读数大规模捕获扰动。通过监测由此产生的内在细胞状态的变化,单细胞扰动分析为基因程序的变化、跨组织的共享和不同响应、药物靶点和相互作用、细胞类型频率的变化以及扰动后的细胞-细胞相互作用提供了见解。
虽然已经为这些复杂数据开发了基于统计和机器学习的方法,但高通量扰动筛选的规模和复杂性可能带来相当大的解释挑战,例如缺乏有意义的低维表示以及关于细胞系或扰动的额外背景信息。当前的扰动分析框架如MUSIC、ScMAGeCK、SCEPTRE、GSFA和FR-Perturb主要关注CRISPR扰动分析,忽略了其他扰动数据类型和扰动分析步骤。此外,目前还没有能够扩展到基因组规模数据集、利用公共注释对数据进行情境化处理并在工具间使用通用数据结构的分析框架。此外,许多工具存在维护问题或局限于R生态系统,使分析复杂化。
Pertpy是一个用于扰动分析的Python框架,专门用于组织、分析和可视化复杂的扰动数据集。Pertpy具有灵活性,可应用于不同检测方法、数据类型、大小和扰动的数据集,从而统一了以前针对特定数据类型或检测方法的单一问题解决方案。它设计用于将外部元数据与测量数据集成,通过快速构建的、针对特定实验的流程,实现对结果的空前情境化,从而获得更稳健的结果。为了评估方法和获得的扰动表示,我们实施了一系列共享指标。Pertpy通过其稀疏和内存高效的实现(利用JAX库的并行化和GPU加速)来解决广泛的用例和不断增长的不同类型数据集,使其比原始实现快得多。
我们通过三个不同的、流行的单细胞RNA测序(scRNA-seq)扰动用例来展示这种多功能性。为了展示pertpy如何发现新的基因程序,我们研究了一个CRISPR激活(CRISPRa)筛选(Perturb-seq)数据集,将其投影到一个有意义的扰动空间,并评估不同预处理策略的效果。此外,我们展示了如何通过整合现有数据库的元数据,在一个大规模基因表达和药物反应筛选中将扰动响应解卷积为存活依赖性和存活非依赖性成分。最后,我们解读了三阴性乳腺癌(TNBC)研究中的组成变化并对扰动效应进行排序。
Results
Pertpy enables fast and scalable perturbation analyses
Pertpy包括用于分析单一和组合扰动的方法,涵盖不同类型的扰动数据,包括基因敲除、药物筛选和疾病状态。该框架设计灵活,提供超过100个可组合和互操作的分析功能,这些功能组织在模块中,进一步简化了下游解释和可视化。
典型的pertpy分析输入是存储在AnnData或MuData对象中的单模态scRNA-seq或多模态扰动读数。虽然pertpy主要是为探索扰动而设计的,但其效用扩展到各种其他扰动设置,包括未应用实验扰动的不同疾病状态。
第一个数据转换步骤是将指导RNA(gRNA)分配给细胞。Pertpy提供了一个阈值法和一个泊松-高斯混合模型方法,适应低和高感染复数(MOI)场景。第二步是解决混杂因素,如不必要的技术变异和其他单细胞特定的质量控制问题。Pertpy与scverse生态系统集成,用户可以无缝集成成熟的批次校正方法来解开技术伪影与真实的扰动响应。
在严格的质量控制之后,典型的pertpy分析开始针对本体(如细胞系本体或药物本体)管理扰动注释,并使用从癌症依赖图(DepMap)、癌症药物敏感性基因组学(GDSC)、连通性图(CMap)、PubChem和ChEMBL数据库获得的额外元数据来丰富扰动。
CRISPR应用在影响基因表达方面可能表现出可变的功效。Pertpy的快速Mixscape实现通过根据细胞对扰动的响应对靶向细胞进行分类来解释这一点。随着应用的扰动数量增加,比较和解释它们变得越来越具有挑战性。Pertpy提供了几种不同的方法来学习生物学上可解释的扰动空间,这些空间脱离了细胞的个体视角,而是生成每个扰动的单个嵌入,总结细胞响应。
基因表达在实验条件之间的变化对于理解细胞对扰动的响应至关重要。差异基因表达分析有助于研究人员确定当细胞暴露于不同刺激或处理时,哪些基因显著改变其表达水平。Pertpy通过为支持复杂设计和对比的差异基因表达提供直观界面来填补这一空白。目前,pertpy支持PyDESeq2、edgeR、Wilcoxon检验和t检验。此界面附带一套绘图功能。
追踪细胞类型组成变化对于理解疾病进展、组织再生和发育生物学的潜在机制至关重要,提供了对细胞响应和适应的见解。Pertpy提供了两种不同的检测组成变化的方法。如果标记的组可用,pertpy提供了scCODA 2.0及其细胞类型层次结构感知扩展tascCODA 2.0的加速和可扩展实现。如果标记的组不可用或预期连续比例,pertpy实现了Milo的可扩展版本,该版本通过将细胞分配到k-最近邻图中的重叠邻域来进行差异丰度测试。
理解细胞在组织内如何协同运作是一个重大挑战。多细胞程序(MCPs)指的是各种细胞类型的协调活动,这些活动协作在组织尺度上创建复杂的功能结构。Pertpy的DIALOGUE快速实现通过因子分析和层次建模的结合来发现MCPs,这得益于快速输入顺序不变的线性规划求解器和一种新的快速测试来确定显著相关的MCP基因。
并非所有细胞类型都同样受到扰动的影响。Pertpy的Augur快速实现通过训练机器学习模型来预测每个细胞类型内的实验标签,然后根据模型在多个交叉验证运行中的准确度指标对这些细胞类型进行排序,从而基于它们对扰动的响应对细胞类型进行排序。此外,理解细胞对各种刺激的响应动力学至关重要,特别是在实验探索所有可能条件不可行的情况下。通过可扩展的pertpy实现,CINEMA-OT通过区分混杂变异和扰动效应来扩展这一概念,实现了反映反事实细胞配对的最优传输匹配。
为了准确的统计比较和测量扰动效应,必须在细胞组之间采用距离度量。合适的度量量化了不同扰动下细胞表达模式的差异或相似性,从而能够推断独特或共同的机制。不同类型的距离度量对数据形状做出不同的假设,并强调差异的特定方面。为了捕捉广泛的距离度量类型,pertpy实现了超过18种不同的度量,包括但不限于欧几里得距离、Wasserstein距离等。所有包含的度量也可以通过蒙特卡洛置换测试用于扰动测试,从而允许对扰动可区分性和功效进行统计评估。
建立在scverse生态系统之上,pertpy确保了与现有单细胞组学工作流的无缝互操作性,并且可以与decoupler-py和NetworkCommons等工具结合使用,用于诸如上下文特异性蛋白质相互作用网络推断等任务,同时有目的地可扩展以应对新挑战。我们额外提供了一个数据集模块,包含超过30个可公开加载的扰动单细胞数据集,以AnnData和MuData格式构建并扩展了scPerturb,以启动pertpy的分析、开发和基准测试。
Learning and exploring perturbation representations with pertpy
为了展示pertpy学习有意义的扰动空间的能力,我们检查了一个由Norman等人最初提出的公开可用的CRISPRa筛选数据集,该数据集包含111,255个K562细胞的单细胞转录组,这些细胞受到了287个单一基因和基因对扰动。我们使用这个数据集来展示基因相互作用如何通过基因的组合表达导致细胞和生物体的基因程序和表型。我们进一步使用pertpy研究扰动特定的不同预处理策略如何影响结果。
在初始预处理之后,我们测试了三种扰动特定的处理策略。Pertpy的Mixscape实现支持策略(1)和(2),便于比较预处理策略。在应用每种策略后,我们使用基于多层感知器(MLP)的判别分类器的倒数第二层将剩余细胞的标准化基因表达投影到扰动空间中。我们发现所有策略都产生了相似的扰动空间,这表明对于这个数据集,不使用基于扰动特征的细胞过滤方法是可取的。
检查这个扰动空间,我们观察到明确训练分类器以区分个体扰动会导致具有相似细胞效应的扰动聚类,如受影响的基因程序所指示。我们使用积分梯度评估了分类器将细胞分配到特定扰动时各个输入基因的重要性。通过平均这些特征重要性对于每个注释的基因程序,我们证明分类器从4,000个高变输入基因集合中优先考虑各自的目标基因,突出了它们与预测的相关性。除了验证已知注释外,在扰动空间中评估数据还允许改进先前的注释。此外,将数据投影到扰动空间还允许深入探索没有基因程序注释的簇,从而能够识别一个先前未注释的簇,该簇包含对中性粒细胞脱颗粒途径具有下调作用的扰动。
Pertpy streamlines discovery for complex perturbation experiments
多重技术的进步显著增加了在一个实验中可以分析的细胞状态数量,导致了大规模的扰动筛选。我们使用pertpy高效分析一个包含172个细胞系和13种药物处理的数据集。
Pertpy将注释和质量控制减少到仅需几个步骤。其元数据模块使用来自OncoTree疾病本体和癌症细胞系百科全书(CCLE)的组织来源、癌症类型和批量表达谱对细胞系进行注释。化合物使用来自DepMap、GDSC和CMap的靶点和作用机制(MoA)进行注释。注释后,pertpy能够立即进行可视化以进行探索性分析。此外,注释的批量表达允许用户将其细胞系的RNA谱与已建立的公共数据集进行比较,提供快速质量控制功能。
Pertpy显著简化了McFarland等人原始分析的复制和扩展。我们使用pertpy从GDSC和PRISM获取每个细胞系和扰动对的剂量反应曲线下面积(AUC)值。这使我们能够轻松复制原始的统计方法,以揭示存活依赖性和存活非依赖性的基因表达关联。我们选择了与原始分析不同的药物,BRAF抑制剂dabrafenib,并使用pertpy计算跨95个细胞系的处理后log2倍变化。我们将线性回归在dabrafenib敏感性(1-AUC)上的截距和斜率解释为相应基因对dabrafenib的存活非依赖性和存活依赖性响应。
值得注意的是,我们发现与癌症进展相关的基因ETV4、CDKN2D和MYEOV在其拟合的响应参数中显示出显著变异。此外,我们的分析发现存活依赖性基因中干扰素信号通路的基因富集,这与dabrafenib引发免疫介导的细胞死亡反应一致。有趣的是,蛋白质翻译通路基因在dabrafenib的存活非依赖性效应中上调,这是先前在dabrafenib中注意到但直到现在还没有机制信息的反应。
Pertpy enables deciphering effects of perturbations on cellular systems
理解免疫系统与肿瘤微环境(TME)之间复杂的相互作用对于揭示癌症进展至关重要。这在实体瘤中尤其重要,例如三阴性乳腺癌(TNBC),这是一种罕见的、侵袭性的乳腺癌亚型,缺乏雌激素、孕激素和人表皮生长因子受体,使其对标准受体靶向治疗无反应。TNBC的单细胞转录组学揭示了不同的T细胞亚型以及浆细胞样树突状细胞通过肿瘤-免疫串扰在TME中促进免疫抑制的作用,这是治疗抵抗的重要驱动因素。
因此,我们着手展示如何使用pertpy研究治疗反应,使用一个由Zhang等人最初提出的公开可用的TNBC数据集,该数据集包含22名接受新辅助化疗(NACT)联合或不联合额外PD-L1抑制剂紫杉醇治疗的TNBC患者。为了对扰动效应进行排序,我们使用pertpy计算了四个组中治疗前和治疗后患者之间的均方误差(MSE)距离。我们发现,与对抗PD-L1和NACT联合治疗有反应的患者相比,仅对NACT有反应的患者在治疗前和治疗后表达谱之间的距离更大,这意味着后者可能导致潜在的反应强度较低或用于预后较差的病例。
为了识别参与治疗反应的细胞类型,我们研究了治疗诱导的细胞类型组成的变化。追踪细胞类型变化对于理解疾病进展、组织再生和治疗反应至关重要,揭示细胞适应的关键见解。我们对每个治疗应用了pertpy实现的贝叶斯模型scCODA 2.0。我们发现在NACT治疗中,CD4中央记忆、CD8效应记忆、CD8组织驻留记忆和初始T细胞在疾病阶段之间存在组成变化,但联合治疗则没有。
为了更好地理解经历组成变化的细胞类型是否是共同细胞回路的一部分,我们着手寻找在几种细胞类型中共享的基因表达特征,这些特征共同作为组织水平的单元,即所谓的多细胞程序(MCPs)。我们将pertpy实现的DIALOGUE应用于TNBC治疗数据集,计算了10个MCPs,可以评估其与治疗反应的关联。对MCP2分数的探索性分析表明,基于细胞类型特异性t检验,两种治疗组的治疗反应可能存在关联。对MCP2相关基因的初步调查表明其参与热休克蛋白活性和细胞因子信号传导。
Discussion
Pertpy通过一个可互操作组件的多功能工具箱,促进了复杂扰动数据集的端到端分析,涵盖元数据注释、数据分析和可视化工具。通过共享基础设施和模块,并与原始作者合作,我们开发了广泛使用方法的改进版本,这些方法最初未维护或仅易于R社区使用,现在也广泛提供给Python社区。
我们通过几个用例展示了pertpy的灵活性,包括使用CRISPRa筛选(Perturb-seq)数据集识别扰动特异性基因程序,在化学扰动数据集中解卷积存活相关的响应特征,以及解读TNBC药物治

生物通微信公众号
微信
新浪微博


生物通 版权所有