研究背景
人类肠道微生物组研究揭示了微生物与多种疾病(如炎症性肠病、结直肠癌、帕金森病(PD)和移植物抗宿主病等)之间存在关联。在这类研究中,通常采用高通量测序评估粪便样本中微生物的相对丰度和组成。然而,测序数据本质上具有组成性,这导致生态系统中微生物绝对数量的信息丢失,可能产生有偏差或误导性的结果 。
为解决该问题,虽已提出多种测量微生物绝对丰度或定量微生物组分析(QMP)的方法,如添加内标、定量或数字液滴 PCR(qPCR 和 ddPCR)以及流式细胞术等,但这些方法存在技术难度大、成本高的问题,所以在大型宏基因组研究中未被常规使用。此前,Nishijima 等人尝试用基于分类组成的机器学习模型预测样本中的原核生物绝对负荷,但该研究绝对丰度动态范围小,预测准确性有限。
研究方法
- 样本采集与处理:本研究使用的样本来自两项临床试验。一是 BMT CTN 1703/1801 临床试验,该试验旨在研究接受低强度预处理的异基因造血细胞移植(allo - HCT)治疗血液恶性肿瘤患者的微生物组。试验中,患者在造血干细胞输注前后提供粪便样本,样本无防腐剂,采集后于 4°C 保存,30 分钟内送至相关机构处理并冷冻于 - 80°C。本研究从中随机选取 6 个 96 孔板的样本进行分析。二是 PD 病例对照研究,由斯坦福运动障碍诊所及周边地区开展,PD 患者和健康对照者提供血液和粪便样本,样本采集于 Zymo 保存液中,随后被送至斯坦福大学冷冻保存。
- 实验操作流程:对于 allo - HCT 队列的粪便样本,使用活检打孔器获取等量冷冻粪便并称重,利用 QIAamp PowerFecal Pro DNA Kit 提取 DNA,最终洗脱至 100μL。PD 队列样本因保存于 Zymo 保存液中,用移液器取 200μL 样本并称重,DNA 提取采用 QIAamp PowerFecal Pro DNA Kit,但省去 CD2 抑制剂去除步骤,并用 Qiagen DNeasy PowerClean Pro Cleanup kit 进一步处理,最终洗脱至 50μL。提取 DNA 后,用 Agilent 5400 Fragment Analyzer System 测量 DNA 浓度,使用 NEB Ultra II kit 制备宏基因组文库,在 NovaSeq 6000 平台进行 2×150 bp 测序。
- 数据分析方法:原始测序数据经 NextFlow 管道处理,包括用 HTStream SuperDeduper v1.3.3 去除重复序列、TrimGalore v0.6.7 修剪低质量碱基、bwa v0.7.17 将读数映射到人类基因组(hg38)并去除匹配读数,最后用 MetaPhlAn v4.0.4 进行宏基因组分析,得到宿主读数比例等信息。通过 ddPCR 对 16S rRNA 基因进行绝对定量,具体步骤包括样本稀释、添加引物和探针、生成液滴、进行 PCR 反应,最后用 QuantaSoft 软件分析液滴并计算 16S 拷贝数。利用随机森林模型进行机器学习训练,输入特征包括 DNA 浓度、宿主读数比例、原核生物 α 多样性、样本储存类型等,通过十次重复的 10 折交叉验证评估模型性能。
研究结果
- 样本数据特征:在 allo - HCT 队列中,共分析了 518 个样本。由于 allo - HCT 患者接受大量医疗治疗,其微生物组的 α 多样性和原核生物绝对丰度受到影响,该队列中 16S 拷贝数低于健康人群研究中的细菌数量。与其他研究相比,本研究数据动态范围更大,跨越多个数量级。
- 相关性分析结果:计算 Spearman 相关系数发现,DNA 浓度与原核生物绝对丰度(以每提取的 log10 16S 拷贝数衡量)之间存在强正相关(rho = 0.92,p < 2e - 16),原核生物 α 多样性(以香农多样性衡量)与绝对丰度也呈正相关(rho = 0.34,p = 2.1e - 15),但高分类群(真核生物、古细菌和细菌)的相对丰度与绝对丰度无强正相关。
- 模型训练与评估结果:基于 DNA 浓度与原核生物绝对丰度的强相关性,训练了 “DNA - only” 模型和 “full” 模型。“DNA - only” 模型以 DNA 浓度为唯一输入,Spearman 相关系数为 0.89;“full” 模型加入其他样本信息后,Spearman 相关系数达到 0.91,在其他指标上也优于 “DNA - only” 模型。通过十次重复的 10 折交叉验证和留一板验证,模型在不同评估方式下均表现出良好的预测准确性。在对 PD 队列的外部验证中,模型同样展现出高准确性,R2 = 0.92,表明模型具有良好的泛化能力。
研究讨论
本研究提出的基于 DNA 浓度和其他样本信息的机器学习模型,在预测原核生物绝对丰度方面表现出较高准确性,有望在未来宏基因组研究中替代复杂昂贵的实验。但该模型存在一定局限性,如需要更多独立数据集进行验证,样本处理方式(如不同的储存缓冲液、DNA 提取协议或浓度测量方法)可能影响模型的泛化性;模型预测的是样本中 16S 拷贝数,若要估计每克干粪便中的原核细胞数量,还需进一步归一化;模型对其他环境样本或宿主相关微生物组的适用性也需评估,且样本原核生物丰度过高或过低可能导致预测不可靠。此外,由于 DNA 浓度等样本测量信息未常规包含在出版物或测序读数档案中,无法像 Nishijima 等人的研究那样对已发表数据进行回顾性分析。未来研究中,建议研究人员报告样本的相关信息,如粪便用量、DNA 浓度和宿主读数比例等,以促进对该模型的验证和回顾性分析。
总体而言,本研究的模型为研究人员基于宏基因组测序中常规测量的数据估计样本中原核生物绝对丰度提供了新途径,相关数据和代码已在 GitHub 和 Zenodo 上公开,方便其他研究人员使用。