在基因组的奇妙世界里,科学家们一直致力于探索其复杂的结构与功能奥秘。随着研究的深入,人们发现哺乳动物基因组被折叠成多种复杂结构,如 A 和 B compartments、拓扑相关结构域(TADs)、亚拓扑相关结构域(subTADs)和环等 。这些结构在基因表达调控中起着关键作用,例如 TADs 和 subTADs 及其边界能限制增强子与远端靶基因的相互作用,防止异位增强子 - 启动子相互作用,边界的破坏还与多种人类疾病中的基因表达失调相关 。
然而,目前在单细胞层面检测这些结构仍面临诸多挑战。传统的基于批量测序的方法,如染色体构象捕获测序(Hi - C),虽然揭示了基因组的一些整体折叠模式,但无法在单细胞分辨率下精准观察这些结构 。而新兴的多路复用连续 DNA FISH 寡核苷酸成像技术,虽能实现单等位基因成像,但在分析数据时困难重重。其数据的信噪比低,实验过程易出现大量数据缺失,且现有算法难以有效处理这些问题,导致在单细胞成像数据中检测类似结构的进展缓慢 。
为了攻克这些难题,来自美国宾夕法尼亚大学(University of Pennsylvania)的研究人员 Rohan Patel、Kenneth Pham、Harshini Chandrashekar 和 Jennifer E. Phillips - Cremins 开展了一项重要研究。他们开发了一种名为 FISHnet 的算法,相关成果发表在《Nature Methods》上。这一研究成果意义重大,为深入理解基因组的结构与功能关系打开了新的大门,有助于科学家进一步探究单等位基因折叠变异对基因组功能的影响 。
研究人员在开展研究时,主要运用了以下关键技术方法:
- 构建模拟数据:利用已有的字符串和结合剂(SBS)模型模拟染色质折叠结构的成对距离矩阵,通过修改模型参数,创建具有不同特征的模拟数据,用于测试 FISHnet 算法的性能 。
- 算法构建与优化:FISHnet 算法基于图论,包含阈值二值化、平滑处理、网络模块度最大化和共识分组四个关键步骤。通过调整多个参数,如平滑窗口大小、距离步长和平台大小等,优化算法性能,以适应不同的数据集 。
- 统计分析:运用多种统计方法,如计算调整兰德指数(adjusted RAND score)来确定共识分区,进行卡方检验和置换检验以识别细胞类型特异性边界等,深入分析数据特征 。
- 多数据集验证:使用多个已发表的 Oligopaints 数据集进行测试,包括来自不同细胞系和组织的样本,如人类 HCT116 细胞、小鼠胚胎干细胞(mESCs)、小鼠脑组织等,验证算法的有效性和通用性 。
研究结果如下:
- 检测类似结构的准确性:FISHnet 在模拟和真实的单等位基因 Oligopaints 数据中,都能灵敏且特异地识别染色质结构域和边界 。在模拟数据测试中,其受试者工作特征曲线下面积(AUC)达到 0.95,即使存在高达 40% 的数据缺失,AUC 仍能保持在 0.91,当使用线性插补处理缺失数据时,AUC 在数据缺失高达 80% 的情况下仍可达 0.88 。在与已有的绝缘分数方法对比中,FISHnet 在边界特征检测方面表现更优,能检测出嵌套的 TAD 或 subTAD 样结构及边界,而绝缘分数方法不具备此能力 。
- 与已知数据的对应性:FISHnet 在真实数据中的边界识别结果与整体 Hi - C 数据中的 TAD 或 subTAD 边界高度对应 。在对人类 HCT116 细胞和小鼠胚胎干细胞(mESCs)的研究中,FISHnet 识别的边界与整体 Hi - C 数据中的边界位置一致 。在对果蝇胚胎高分辨率成像数据的分析中,也证实了 FISHnet 能准确识别明显的结构域 。此外,在已知 TADs 和 subTADs 被破坏的扰动模型系统中,FISHnet 能再现由于黏连蛋白敲低导致的边界破坏模式 。
- 检测单细胞异质性:FISHnet 能够检测原发性组织中单个细胞群体的结构域和边界位置差异 。通过对小鼠脑组织中兴奋性神经元和小胶质细胞的研究,发现 FISHnet 可分辨同一细胞类型中单个等位基因边界位置的差异 。通过统计检验,还能识别出在不同细胞类型中显著不同的边界,如在兴奋性神经元和小胶质细胞中,FISHnet 能识别出基因组位置上具有统计学意义的细胞类型特异性边界 。
- 区分细胞类型:FISHnet 边界识别结果可用于区分不同细胞类型 。对 IMR90、K562 和 A549 细胞的研究发现,基于 FISHnet 边界调用的主成分分析能够有效分离这些细胞系,而基于原始成对距离矩阵的主成分分析则无法区分 。
- 发现层次结构:FISHnet 可检测到与整体 Hi - C 数据中最初检测到的嵌套 subTADs 一致的层次结构域 。研究发现,通过调整 FISHnet 的距离阈值,可以检测到不同大小的 TAD 和 subTAD 样结构域 。在不同细胞系中,FISHnet 域掩码计数与整体 Hi - C 数据具有很强的相关性,表明单等位基因成像数据中 FISHnet 域调用的频率可用于再现整体 Hi - C 数据中的 TADs 和 subTADs 。
研究结论和讨论部分表明,FISHnet 是一种强大的算法,为研究单细胞基因组折叠提供了重要工具 。它克服了单细胞成像数据分析中的诸多技术挑战,能在不同分辨率和数据质量下有效检测染色质结构域和边界 。此外,FISHnet 的应用揭示了单细胞间结构域定位的显著差异,为理解基因组折叠的机制提供了新视角 。未来,研究人员计划进一步改进和扩展 FISHnet,以应对更大规模和更高噪声的数据,这将有助于更深入地探究基因组功能以及疾病发生发展的机制 。