单细胞长读长与短读长转录组测序的cDNA分子匹配比较:MAS-ISO-seq方法的质量评估

时间:2025年7月5日
来源:NAR Genomics and Bioinformatics

编辑推荐:

本研究针对单细胞RNA测序(scRNA-seq)中长读长与短读长技术的数据可比性问题,通过匹配相同cDNA分子的细胞条形码和唯一分子标识符(UMI),系统评估了MAS-ISO-seq方法的性能。研究发现两种技术虽在细胞捕获和转录本回收上高度一致,但平台特异的文库处理和分析步骤会引入偏差:短读长测序深度更高,而长读长能保留<500bp的转录本并有效去除模板转换寡核苷酸(TSO)污染的降解cDNA。该成果为单细胞异构体研究提供了重要方法学参考,发表于《NAR Genomics and Bioinformatics》。

广告
   X   

在单细胞生物学研究领域,解析细胞异质性需要高精度的基因表达谱数据。目前主流单细胞RNA测序(scRNA-seq)主要依赖Illumina短读长技术,虽能提供高通量基因表达信息,却难以获得全长转录本信息。相反,Pacific Biosciences(PacBio)等长读长技术虽能解析异构体表达,但其与短读长数据的可比性一直存在争议。这种技术差异给研究者带来选择困惑——是否需要同时采用两种技术?数据间偏差究竟来自生物学差异还是技术本身?

瑞士苏黎世联邦理工学院功能基因组中心等机构的研究团队在《NAR Genomics and Bioinformatics》发表重要研究,通过创新性的cDNA分子匹配策略,首次在单细胞水平系统比较了长读长与短读长测序的技术差异。研究采用来自4例透明细胞肾细胞癌(ccRCC)患者和1例健康肾脏的类器官细胞,对相同的10x Genomics 3' cDNA分别进行Illumina短读长和PacBio长读长测序,通过细胞条形码和UMI实现分子级别的交叉比对。

关键技术包括:10x Genomics单细胞3' cDNA文库构建、Illumina NovaSeq 6000短读长测序、PacBio Sequel IIe长读长测序(采用MAS-ISO-seq protocol)、SMRTLink v11.1分析流程(含isoseq3、BLAZE等工具)、CellRanger v7.2.0分析流程,以及基于SQANTI3的异构体分类系统。

Number of cells detected from short-read sequencing is higher, but those cells are of lower quality
研究发现短读长测序虽然检测到更多细胞(平均多3倍UMI/细胞),但这些额外细胞中31.2%呈现高线粒体基因含量(>30%),显著高于双平台共享细胞的6.8%。PacBio通过"膝盖点"算法筛选的高质量细胞中,9-32%在Illumina数据中被BLAZE鉴定为空滴。MAS-ISO-seq特有的TSO去除步骤使长读长数据中TSO污染率降至6.4%,而Illumina特有细胞达19.6%。

Short-read sequencing provides more data but consists of a higher proportion of multi-mapping reads
通过分子匹配分析发现,长读长能检测到0.75%完全未被短读长映射的转录本,这些转录本平均长度608bp,其中53%属于完全匹配参考转录本(FSM)或不完全剪接匹配(ISM)类别。短读长数据存在7.2%多重映射reads(长读长仅1.1%),其中48%映射到与长读长不同的基因组位置。

Gene expression results are highly comparable between long-read and short-read sequencing data
在共享的高质量细胞中,90%的基因被两种技术共同检测到。伪批量分析显示表达量高度相关(R=0.92-0.97),但短读长对GC含量>60%的基因存在偏好,而长读长对<800bp的短基因计数更优。UMAP分析显示相同细胞的欧氏距离<1,且ccRCC标志物CA9等基因表达模式一致。

Isoform resolution provides more information on the sequencing artefacts
长读长独有的异构体分辨率可识别三类人工产物:内含子区A碱基错误引发(Intra-priming)、逆转录酶模板切换(RT-switching)和低覆盖/非经典剪接(LCNC)。研究发现45%的reads和82%的异构体被过滤,其中LCNC占比最大(27% reads/48%异构体)。这种过滤虽提高数据质量,但可能过度剔除>4000bp长基因的表达信号。

这项研究首次在分子水平证实长读长与短读长scRNA-seq数据具有高度可比性,为技术选择提供了实证依据。特别重要的是,研究发现长读长特有的全长转录本信息能识别并过滤28%的测序假象,这是短读长无法实现的质控优势。虽然PacBio测序成本较高,但其在解析<500bp短转录本和复杂异构体方面的独特价值,使其成为研究转录组复杂性的有力工具。该成果不仅为单细胞多组学研究提供了方法学指导,也为长读长技术的标准化应用奠定了重要基础。随着PacBio Revio系统等新技术的发展,长读长单细胞测序有望在肿瘤异质性和罕见细胞亚群研究中发挥更大作用。

生物通微信公众号
微信
新浪微博


生物通 版权所有