CONCORD:通过对比学习与概率采样揭示单细胞数据中连贯的细胞状态景观

时间:2026年1月6日
来源:Nature Biotechnology

编辑推荐:

本文介绍了一种名为CONCORD的新型统一框架,它通过创新的概率采样策略(数据集感知采样和困难负采样)与简约的对比学习模型,在单细胞RNA测序(scRNA-seq)数据分析中同时解决了批次整合、降噪和降维三大挑战。该方法生成的去噪细胞编码能有效保留关键生物结构(如基因共表达程序、谱系轨迹),并在跨技术、跨物种数据整合中表现出卓越性能,为揭示细胞身份和动态提供了通用且高保真的表示学习工具。

广告
   X   

摘要

揭示单细胞数据中潜在的细胞状态景观需要克服批次整合、降噪和降维等关键障碍。CONCORD作为一个统一框架,通过概率采样策略(数据集感知采样和困难负采样)与简约的对比学习模型,在自监督学习框架内同时应对这些挑战。该方法仅使用单隐藏层的 minimalist 神经网络,无需依赖深度架构、辅助损失或外部监督,即可超越现有技术性能。CONCORD能够无缝整合跨批次、技术甚至物种的数据,生成高分辨率细胞图谱。其生成的潜在表示是去噪且具有生物学意义的,能够捕捉基因共表达程序、揭示详细谱系轨迹,并保留局部几何关系和全局拓扑结构。

CONCORD框架

单细胞测序数据分析表明,基因表达受到基因调控网络和细胞间相互作用的约束,从而在高维基因表达空间中形成结构化的低维“状态景观”。CONCORD通过重新设计对比学习中的小批量(minibatch)采样策略,将对比学习对minibatch组成的敏感性转化为优势。其核心是联合概率采样框架,结合了困难负采样(hard-negative sampling)和数据集感知采样(dataset-aware sampling)。
困难负采样通过在小批量中富集密切相关(即困难负样本)的细胞,迫使模型学习区分密切相关的细胞状态。CONCORD实现了两种变体:基于k近邻(kNN)的采样器和hcl模式。kNN采样器根据细胞状态景观的粗略图近似,概率性地从局部邻域和全局分布中抽取细胞,使模型能够同时捕捉大规模区别和局部细节。hcl模式则通过蒙特卡洛重要性采样来近似困难负采样的预期损失。
数据集感知采样通过将每个小批量限制主要来自单个数据集的细胞,确保对比反映的是生物学差异而非技术差异。数据集特定的偏差通过随机小批量洗牌进一步减弱,使得只有有生物学意义的信号(如基因共表达模式)在训练中持续存在。
这两种采样器被整合到一个统一的联合采样框架中,其核心原则是概率性地构建小批量,以平衡全局生物多样性与局部和数据集特定的变异。这种简单的创新使CONCORD仅使用具有单隐藏层的 minimalist 编码器就超越了现有技术性能,表明采样设计本身可以改变对比学习在单细胞数据上的性能。

CONCORD学习去噪的潜在表示并保留底层结构

为了评估CONCORD在保留基因表达空间的几何和拓扑结构方面的性能,研究团队在模拟数据集上进行了基准测试。他们开发了一个定制的工作流程来创建具有复杂生物结构(如分支或环)的真实模拟数据。
评估管道包括几何指标(如可信度trustworthiness和全局距离相关性)以及基于持续同调(persistent homology)和贝蒂数(Betti numbers)的拓扑数据分析(TDA)。在简单的三簇模拟中,CONCORD清晰地分离了簇,而许多其他方法未能完全解析簇或引入了虚假结构。持续同调分析证实,CONCORD的贝蒂-0平台准确地反映了预期的三簇拓扑结构。
在具有三个环和多个分支点的更复杂模拟中,CONCORD忠实地恢复了完整的拓扑结构,而其他方法要么扭曲了结构,要么在贝蒂分析中未能检测到正确数量的环。定量评估证实,CONCORD在几何和拓扑指标上始终优于竞争方法,并在广泛的邻域大小范围内保持高可信度。
在模拟分层分支树以评估困难负采样的影响时,没有困难负采样时,子分支无法解析。适度富集困难负样本显著提高了两种CONCORD变体的分辨率。

CONCORD学习连贯的、减轻批次效应的潜在表示

批次效应通常表现为数据集特定的全局信号,可能掩盖生物变异。在CONCORD中,当小批量被限制在单个数据集时,这些信号在训练过程中迅速减弱。与依赖显式对齐模型的传统批次校正方法不同,CONCORD对批次效应的来源或形式做出最小假设,而是优先学习连贯的、有生物学意义的基因共变异模式。
在具有噪声、批次效应和批次大小不平衡的五簇模拟数据集上,CONCORD是唯一能稳健恢复所有五个簇的方法。在涉及跨不同条件采样的连续状态转换的更具挑战性的场景中(例如轨迹、环和树,且状态重叠程度不同),许多竞争方法表现出较差的对齐效果并引入了人工结构。相比之下,两种CONCORD变体始终恢复了正确的拓扑结构并降低了噪声,即使批次间的重叠最小。
在具有16种不同批次效应的轨迹模拟中,CONCORD(尤其是kNN变体)实现了卓越的对齐和降噪效果。定量指标证实,CONCORD保留了局部几何结构,同时表现出较低的全局距离相关性。鲁棒性测试表明,当仅在少量随机选择的批次上训练模型并用于预测剩余批次时,CONCORD保持了强大的对齐能力,而scVI的性能显著下降。这表明CONCORD的鲁棒性源于学习基因共表达程序,而非显式建模和校正批次效应。
在所有模拟中,CONCORD实现了高生物标签保真度,但批次校正分数略低,因为它不显式合并批次。相比之下,scVI虽然实现了高批次混合分数,但经常产生过度混合的嵌入,掩盖了底层结构。CONCORD在拓扑保存、生物标签保真度和整体性能方面始终名列前茅。

CONCORD对齐全生物发育图谱并解析高分辨率谱系轨迹

为了评估CONCORD是否捕捉有生物学意义的结构,研究团队在秀丽隐杆线虫(C. elegans)胚胎发生数据集上对其进行了基准测试,这是一个具有近乎不变的谱系树的特征明确的系统。
当应用于结合了跨物种数据集(C. elegansC. briggsae)以及新的早期胚胎收集数据的大规模数据集(超过41万个细胞)时,CONCORD生成了一个统一的发育图谱,与专家注释密切匹配,实现了跨物种对齐并以超高分辨率解析了谱系。将谱系树投影到CONCORD的嵌入上,揭示了与已建立的谱系和命运关系的强一致性。例如,源自AB祖细胞的ASE、ASJ和AUA神经元形成了分支轨迹,反映了其真实的谱系结构。值得注意的是,CONCORD的潜在空间甚至解析了ASE-left和ASE-right神经元,这些神经元在盐感应反应中表现出功能不对称性。
为了系统评估潜在空间中谱系结构的保存情况,研究评估了随机选择的k近邻邻域内的谱系纯度(lineage purity)和平均谱系距离(average lineage distance)。CONCORD即使在大k值下也保持了高谱系纯度,并且来自不同谱系的相邻细胞通常是近亲,这反映在较低的平均谱系距离上。相比之下,其他方法产生的嵌入具有明显更多的混合谱系邻域。
除了神经元发育中的命运分叉外,来自不同谱系的命运汇聚也是线虫器官发生中的常见模式。在肌肉形成中,CONCORD准确解析了MS、C和D谱系如何汇聚成体壁肌的明确定义的分支,以及罕见汇聚事件。咽部发育(涉及AB来源和MS来源细胞的复杂分支和汇聚)同样被CONCORD详细解析。
最后,为了测试模型泛化能力,研究在C. elegans批次子集上训练CONCORD和scVI,并将其投影到未见过的C. elegans和所有C. briggsae数据上。CONCORD成功整合了保留的批次,对齐了两个物种,并解析了大多数细胞类型。相比之下,scVI产生的投影质量明显较低,跨物种对齐差且细胞类型分辨率降低。

CONCORD捕捉哺乳动物肠道发育中的细胞周期和分化轨迹

与线虫不同,哺乳动物发育涉及广泛的增殖与持续分化相结合。为了评估CONCORD能否解析这些交织的过程,研究将其应用于小鼠胚胎肠道发育的单细胞图谱,该图谱跨越多个发育阶段、批次、空间片段和富集的细胞群体,由于批次覆盖不完整,构成了一个具有挑战性的整合任务。
CONCORD有效整合了数据,并在不同细胞类型中解析了细粒度的子结构。在肠道上皮细胞中,CONCORD不仅解析了罕见亚型(如肠内分泌细胞),还揭示了两条平行轨迹——每条都包含一个细胞周期环和一个分化路径——对应于空间不同区域的干细胞增殖和分化。这些结构未被其他方法捕捉,并得到成年分区标记物(如Bex4Onecut2)的支持,表明CONCORD可以在胚胎期第13.5天就检测到上皮分区。
在肠道神经系统(ENS)中,CONCORD捕捉了Sox10++祖细胞的细胞周期,并识别了由Etv1Bnc2标记的神经元发育的两个不同分支,与之前的观察结果一致。这些分支似乎通过共享的在两个分支晚期广泛活跃的神经元成熟基因的表达而汇聚。
在间充质细胞(构成该数据集的主要部分)中,CONCORD揭示了Pdgfra和平滑肌群体内的广泛异质性。这包括四个连续的细胞周期环,分别由Ebf1Slit2KitActa2的表达标记,环之间存在逐渐过渡。
与Seurat和scVI不同(它们留下许多潜在维度未充分利用),CONCORD产生了一个密集且可解释的潜在空间,反映了丰富的生物结构并充分利用了其表示能力。每个潜在维度通常封装多个基因共表达程序,可以通过基于梯度的归因方法在单细胞或细胞状态分辨率上进行解释。例如,潜在神经元Z46在上皮细胞和ENS细胞中都被激活,但归因分析显示,其驱动因素取决于细胞上下文:在上皮细胞中与杯状细胞特异性基因(富集于糖基化通路)相关,而在ENS细胞中则反映晚期神经元中表达的神经元成熟基因。

CONCORD跨模态和尺度泛化

CONCORD的领域无关设计使其能够应用于scRNA-seq以外的多种数据模态。研究团队在一个具有挑战性的单细胞ATAC-seq(scATAC-seq)基准数据集上进行了测试,该数据集包含来自两个供体的外周血单核细胞(PBMC),在八种不同技术平台上进行了分析。在定量指标和嵌入视觉检查方面,CONCORD比包括原始研究中基于Harmony的分析在内的其他方法产生了更好的批次校正和生物标签保真度。
CONCORD的嵌入揭示了原始注释中不存在的细粒度免疫亚型。通过使用配对的scRNA-seq和scMultiome数据细化细胞类型标签,并将其通过共享的scMultiome细胞投影回scATAC-seq嵌入进行验证,精炼后的簇(例如,初始和记忆B细胞)与CONCORD在scATAC-seq中发现的簇精确对应。此验证还发现了原始研究中的一处错误注释。
当应用于通过Xenium、3′和5′ scRNA-seq以及固定RNA分析技术分析的乳腺癌肿瘤微环境样本时(仅共享307个基因),CONCORD(hcl模式)相比其他方法实现了显著更好的整合和细胞类型分辨率。原始研究的一个关键发现是两种DCIS(导管原位癌)亚型表现出不同的相邻微环境;值得注意的是,在没有空间坐标的情况下,CONCORD通过揭示DCIS和肌上皮簇之间的差异连接性重现了这些相邻模式。
最后,研究在由单细胞分析开放问题(Open Problems)计划策划的六个额外的scRNA-seq数据集上对CONCORD进行了基准测试,包括Tabula Sapiens(超过100万个细胞)。CONCORD在这些数据集上始终取得顶级性能,同时运行速度显著更快,且内存/显存需求适中。相比之下,几种方法(包括LIGER、Scanorama和Seurat)由于资源需求过高或违反方法假设而无法在图谱尺度上运行。

讨论

小批量梯度下降支撑着现代机器学习。越来越多的证据表明,这些小批量的组成会影响模型性能。在对比学习中,这种效应被放大。CONCORD的核心创新在于通过重新思考小批量如何构建,将对比学习对minibatch组成的敏感性转化为优势。
CONCORD的核心是一个统一的概率采样器,集成了困难负采样和数据集感知采样。困难负采样显著增强了对比模型的表示能力,使其能够捕捉区分密切相关的细胞状态的复杂基因共表达程序。数据集感知采样器用来自单个数据集的细胞丰富每个小批量,使模型能够学习生物变异而不纠缠批次效应。与依赖匹配簇或显式批次效应模型的传统方法不同,CONCORD仅通过原则性采样和训练来减轻批次效应。
CONCORD使用 minimalist 编码器架构实现了最先进的性能,表明仅通过合理的采样和训练即可实现显著增益,而无需依赖深度架构、复杂目标或监督。跨不同尺度和模态的模拟和真实数据集,CONCORD始终学习去噪、可解释且拓扑忠实的潜在空间。
CONCORD具有速度优化、内存高效的设计。其速度优化的向量化采样算法、原生稀疏矩阵支持和核外数据加载使其能够轻松分析可能超过可用系统内存的百万细胞图谱。虽然当前实现强调简单性,但该框架完全可以扩展到更复杂的架构。
除了核心对比编码器,CONCORD支持可选的解码器和分类器模块,用于基因级批次校正、标签传递和注释引导的表示学习。此外,批次对齐、信息丰富的潜在空间可以很容易地被成熟的下游方法利用。
当基因共表达结构被批次效应严重扭曲时,CONCORD的性能可能会受到影响。例如,在单核和全细胞scRNA-seq数据之间观察到次优对齐,可能反映了由转录本定位引起的基因协方差结构的系统差异。类似地,特征选择策略和输入的生物背景会影响对齐结果。
重要的是,CONCORD背后的原理并不局限于单细胞测序。解耦技术伪影与有意义的生物异质性的基本挑战是许多高维数据模态共有的。因此,本文提出的联合数据集感知和困难负采样框架为从多样化和复杂的生物数据集中学习鲁棒表示提供了一个强大且可推广的策略,为跨实验和技术的更深入、集成的分析铺平了道路。

生物通微信公众号
微信
新浪微博


生物通 版权所有