纵向微生物组轨迹解码:一种可解释的机器学习方法在生物标志物发现与疾病预测中的应用

时间:2025年8月13日
来源:Briefings in Bioinformatics

编辑推荐:

这篇综述创新性地提出了LP-Micro(Longitudinal Prediction Microbiome model)框架,通过多项式组套索(polynomial group lasso)筛选特征、集成机器学习(ML/DL)建模和置换特征重要性检验,解决了纵向微生物组数据的高维度、非线性及时变效应解析难题。该框架在儿童龋病(ECC)和减重手术(BS)队列中验证了其预测准确性和生物标志物发现能力,为疾病早期干预提供了时间敏感型微生物靶点。

广告
   X   

摘要

人类微生物组的纵向动态变化蕴含疾病发展的关键信息。LP-Micro框架通过三阶段分析流程:首先采用多项式组套索筛选具有时间连续性的微生物特征(如口腔链球菌Streptococcus mutans),继而集成XGBoost、随机森林(RF)等算法构建预测模型,最后通过置换检验量化时间点与菌群特征的贡献度。该方法在模拟数据中较传统lasso和稀疏偏最小二乘法(sPLS)多识别出30%的真实信号,预测误差降低27%。

结果

LP-Micro框架概览

该框架通过多项式样条拟合微生物丰度的非线性效应,将同一菌种在不同时间点的特征归为一组进行筛选。例如在儿童龋病研究中,39月龄的唾液微生物数据对5岁龋齿预测贡献最大(AUC提升18%),而减重手术队列显示术后1-6月的肠道菌群变化可解释61%的BMI变化(Pearson相关系数)。

模拟数据验证

在包含5个真实信号的100-500维模拟数据中,LP-Micro的组套索预筛选中位数准确率达91.9%,显著高于sPLS(55%)。深度神经网络(NN)经特征筛选后预测均方误差(MSE)降至0.61,较基线模型提升37%。

儿童龋病应用

分析134名儿童的6次随访数据发现:

  1. 时间特异性:变异链球菌(S. mutans)在39月龄时预测效能最强(P<10-5),早于临床龋损出现2年;

  2. 新靶点:韦荣球菌属(Scardovia wiggsiae)与卟啉单胞菌(Porphyromonas pasteri)的时序变化与疾病显著相关;

  3. 模型比较:LP-Micro-RF的累积预测准确率达70%,较单时间点模型提升13%。

减重手术研究

84例患者数据显示:

  1. 关键时段:术后1-6月肠道菌群(如Schaalia菌属)变化预测12月BMI降幅的PCC达0.55;

  2. 临床因素:年龄(P=0.02)和手术类型(RYGB vs SG)贡献度超微生物特征;

  3. 菌群-代谢关联:Cobetia菌术前丰度与术后5-羟色胺(5-HTP)水平变化呈非线性相关。

方法

多项式组套索

通过自然三次样条转换原始丰度数据,构建如下优化问题:

minβ ||y-Zβ||22 + λΣ||βg||2

其中Z为样条基矩阵,λ控制组稀疏性,确保同一菌种的所有时间点特征同步选择。

累积预测策略

采用滑动时间窗评估信息增益:

D(k-1,k)=E[(y-ŷ1:k)2-(y-ŷ1:k-1)2]

在龋病研究中,第5次随访使D值下降0.23,标志关键预测时间节点。

特征重要性检验

通过置换验证计算三类效应:

  1. 时间点特异性:如术后1月菌群对BMI的P=0.04;

  2. 菌种累积效应:变异链球菌跨时间点P<0.01;

  3. 时段重要性:39-48月龄口腔菌群解释32%预测方差。

讨论

LP-Micro的创新性体现在:

  1. 时变效应捕获:通过组套索保留菌群轨迹完整性,克服传统方法仅捕捉孤立时间点的局限;

  2. 临床转化价值:在龋病研究中提前24个月预警高风险儿童,术中识别减重疗效差的BS患者;

  3. 可解释性提升:提供特征重要性P值(如S. mutans的P<10-5),优于SHAP值等黑箱解释方法。

局限性包括对完整纵向数据的依赖,未来拟结合深度学习插补方法(如Qu等2025年提出的时间序列填补算法)处理缺失值。该框架可扩展至炎症性肠病(IBD)等疾病的微生物动态研究。

生物通微信公众号
微信
新浪微博


生物通 版权所有