基于图像化DNA测序编码的深度学习算法RetroNet精准检测低嵌合体频率体细胞移动元件插入

时间:2025年10月19日
来源:Nature Communications

编辑推荐:

为解决低嵌合体频率体细胞移动元件插入(MEI)检测难题,研究人员开发了深度学习算法RetroNet,将测序读段编码为图像以识别低至两个读段支持的L1、Alu和SVA插入。该工具在癌症细胞系中实现0.885精确度和0.579召回率,有效检测1.79%细胞频率的插入,适用于ctDNA等降解DNA分析,为体细胞逆转录转座的功能与病理学研究提供新见解。

广告
   X   

人类基因组中活跃的移动元件(ME)能够在体细胞组织中产生新型移动元件插入(MEI)突变。这些体细胞MEI,特别是低嵌合体频率(tAF)的插入,由于测序假象和比对错误,检测始终面临重大挑战。现有方法要么灵敏度不足,要么需要带有偏见的人工检查,限制了研究的深入进行。
活跃的移动元件主要包括逆转录转座子,如L1(LINE-1)、Alu和SVA元件。虽然大多数人类ME在进化中积累突变而失去移动能力,但少数非LTR逆转录转座子仍然保持活性,能够通过逆转录转座过程(如靶向引物逆转录,TPRT)复制到新的基因组位点,创造新生MEI突变。这些突变不仅贡献个体内和个体间的遗传多样性,还与多种人类疾病相关。例如,在神经纤维瘤病I型患者中,体细胞SVA插入被发现存在于75%以上的细胞中。
体细胞逆转录转座在正常组织和癌症中广泛存在,具有不同的tAF水平。在神经干细胞和成熟神经元中发生的体细胞L1插入,通常在成人大脑中每个插入的tAF低于2%,通过插入诱变和转录调控改变,在不同脑细胞间形成基因组嵌合现象。在癌症中,Alu和SVA元件以及L1的体细胞插入已被广泛记录,其逆转录转座活性取决于移动元件类型和肿瘤起源。
然而,低tAF体细胞MEI的特征描述仍然具有挑战性,主要是因为当前高通量DNA测序技术产生的信号微弱且噪声 abundant。标准的全基因组测序(WGS)方法能够揭示新生MEI突变的证据,但需要高测序深度(大于100x)、ME靶向PCR扩增或单细胞酶促全基因组扩增,这些方法会增加测序假象的可能性。标准MEI检测算法通常要求至少4个或5个支持读段,这大大限制了检测低tAF MEI的能力。
为解决这些问题,研究人员开发了RetroNet,这是一种深度学习算法,通过将测序读段编码成图像来识别体细胞MEI,最低仅需两个支持读段。该算法在多样化数据集上训练,优于 previous方法,并消除了人工检查的需要。
研究人员使用迁移学习策略,利用更丰富的、进化近期的种系MEI来训练模型,这些MEI共享相同的逆转录转座机制。训练数据来自1000基因组计划高覆盖率WGS数据集的549个父子三人组,真实和虚假的L1、Alu和SVA插入根据遗传模式进行标记。最终训练集包含287,096个真实MEI和1,023,785个虚假MEI。
RetroNet的关键创新在于将支持读段组编码成固定大小的图像,整合基于序列的特征(如活性ME亚家族的特等位基因)和位置特征(如支持读段的相对排列)。对于L1插入,两个支持读段被编码成60x6620像素的图像,分为9个轨道,显示侧翼序列的可映射性、每个读段末端的基因组位置以及与L1Hs共识序列的比对情况。
研究人员采用了三种最先进的深度学习模型进行训练:ResNet-18、GoogLeNet和Vision Transformer(ViT)。所有模型在验证集上都表现出色,AUPR值达到0.997(ResNet-18)、0.998(GoogLeNet)和0.994(ViT)。
在独立测试数据集上的基准测试表明,RetroNet在检测种系MEI方面表现优异,AUPR值显著高于RetroSom模型。在检测模拟体细胞MEI方面,RetroNet在低tAF情况下也表现出色,在1% tAF下AUPR为0.223,比RetroSom提高43.4%。在癌症细胞系HG008-T的分析中,RetroNet成功检测到低至1.79%细胞频率的L1插入。
RetroNet框架包含五个主要步骤:首先从1000基因组计划的549个三人组中推断候选种系MEI,根据遗传模式标记真实和虚假MEI;其次使用基于图像的编码将MEI支持读段组转换为图像;第三训练三种深度学习模型分类L1、Alu或SVA图像;第四在三个独立数据集中对训练模型进行基准测试;最后应用RetroNet检测胰腺导管腺癌细胞系HG008-T中的体细胞MEI。
技术方法方面,研究采用高通量全基因组测序数据,基于1000基因组计划和Illumina Polaris项目的样本队列,使用图像化编码技术将DNA测序读段转换为特征图像,应用ResNet-18、GoogLeNet和Vision Transformer三种深度学习架构进行模型训练,通过迁移学习策略利用种系MEI数据训练模型,最后在多个独立数据集(包括癌症细胞系和循环肿瘤DNA样本)上进行性能验证。
训练RetroNet使用基于图像的DNA测序读段编码
由于真实体细胞MEI数量有限,研究人员利用更丰富的、进化近期的种系MEI开发RetroNet,这些MEI共享相同的逆转录转座机制。训练数据来自1000基因组计划高覆盖率WGS数据集的549个父子三人组,真实和虚假的L1、Alu和SVA插入根据遗传模式进行标记。通过至少两个支持读段的阈值,研究人员确定了287,096个真实MEI和1,023,785个虚假MEI。支持读段包括分裂读段(SRs)、配对末端读段(PEs)和剪接配对末端读段(剪接PEs),这些读段被编码成图像以整合序列和位置特征。
三种神经网络模型在检测种系MEI方面具有相当准确性
在Illumina Polaris项目的49个家庭三人组中评估训练的ResNet-18、GoogLeNet和ViT模型性能。所有三种深度学习模型在L1衍生图像分类方面实现了相似的AUPR分数(0.990-0.991),显著优于RetroSom模型(AUPR=0.936)。其他性能指标显示类似结果,ResNet-18和GoogLeNet在默认分类截断值下对L1检测表现出几乎相等的精确度(=0.970)和召回率(=0.956)。
RetroNet在检测低嵌合水平模拟体细胞MEI方面优于 previous方法
使用基因组混合数据集基准测试RetroNet检测各种嵌合水平MEI的能力,该数据集包含六个无关个体基因组DNA混合到NA12878基因组DNA中的50x、100x、200x和400x覆盖率WGS。在200x测序覆盖率下,RetroNet和RetroSom都能检测到tAF低至1%的模拟体细胞L1插入,RetroNet表现优于RetroSom。对于1% tAF的L1,RetroNet的AUPR为0.223,而RetroSom的AUPR为0.156。
增强概率阈值以处理不平衡数据集
AUPR指标显示了不同概率截断值下精确度和召回率之间的权衡。最佳截断值取决于实际应用中的信噪比(SNR)。组织样本中真实体细胞MEI通常较少且tAF较低,导致高度不平衡的数据,噪声可能淹没信号。研究人员模拟了具有挑战性的场景,其中所有真实MEI都具有低tAF且仅有两个支持读段,评估RetroNet在不平衡条件下分类单个图像的性能。
解读RetroNet神经网络揭示已知逆转录转座标志
从真实MEI图像生成的类激活图(CAMs)支持RetroNet正确利用位置特征(如蓝色箭头)和支持读段的序列特征(如红色像素)进行预测。研究人员进一步评估了RetroNet在单核苷酸分辨率上的预测行为,调查了支持读段在L1共识序列中的位置,发现真实L1插入中5'截断和完整3'末端的分布与虚假图像有显著差异。
检测癌症细胞系HG008中的体细胞MEI
为了证明RetroNet在实际批量测序数据集中的有效性,研究人员分析了胰腺导管腺癌肿瘤细胞系(HG008-T)中的体细胞MEI,使用匹配的正常十二指肠组织(HG008-N-D)作为对照。利用Genome in a Bottle Consortium的公共短读长和长读长测序数据,研究人员通过RetroNet、RetroSom、xTea和TraFiC-mem分析两个独立的Illumina WGS数据集。RetroNet在数据集I2中识别出13个体细胞L1插入,其中10个是真实L1逆转录转座(召回率=0.833,精确度=0.769)。
基准测试循环肿瘤DNA和匹配肿瘤组织中的体细胞MEI
研究人员进一步评估了RetroNet在片段化循环肿瘤DNA(cfDNA)短读长测序中的应用,其中长读长测序不适用。数据集包括时间匹配的cfDNA、转移性肿瘤和转移性去势抵抗性前列腺癌(mCRPC)患者DTB-205的白血细胞。在cfDNA中,RetroNet共识别出44个体细胞L1插入,估计召回率为0.731,精确度为0.864。
研究结论表明,RetroNet成功解决了低tAF体细胞MEI检测的挑战,通过图像化编码和深度学习技术显著提高了检测灵敏度。该工具能够识别最低至两个支持读段的MEI,在癌症细胞系中实现高精确度(0.885)和召回率(0.579),甚至能够检测1.79%细胞频率的插入。RetroNet对降解DNA(如循环肿瘤DNA)同样有效,为体细胞逆转录转座的功能和病理意义研究提供了强大工具。
讨论部分强调,体细胞移动元件插入在大脑发育和肿瘤发生中的作用日益受到认可。低组织等位基因频率和序列重复性带来的挑战使它们的检测变得复杂,需要创新策略进行精确识别。与先前仅分析序列特征的RetroSom模型相比,RetroNet通过整合位置特征表现出更高的准确性,使得能够检测低频率MEI而无需人工检查。尽管存在转移学习中的固有偏差和短读长测序技术的限制,RetroNet代表了相对于 previous方法的有意义进步,可有效应用于各种人类特征和疾病研究中当前可用或正在生成的丰富Illumina测序数据。
研究的重要意义在于为基因组医学提供了新型分析工具,能够检测传统方法难以识别的低频率体细胞突变,为癌症早期诊断、治疗反应监测和神经发育疾病研究提供了新的技术手段。RetroNet的开源发布(GitHub和Zenodo)也确保了研究结果的可靠性和可重复性,为科学社区提供了宝贵资源。

生物通微信公众号
微信
新浪微博


生物通 版权所有