今日动态
  • 生物通首页
  • 今日动态
  • 新技术专栏
  • 人才市场

生物通首页 > 今日动态 > 正文

使用可解释的机器学习模型预测孟加拉国的低出生体重情况

时间:2026年5月28日
来源:BMC Pregnancy and Childbirth

编辑推荐:

摘要背景低出生体重(LBW)仍然是低收入和中等收入国家新生儿死亡率和长期发病率的主要原因。本研究旨在利用来自孟加拉国的具有全国代表性的调查数据,开发和评估用于预测低出生体重的机器学习分类器,并明确区分预测建模和因果推断。方法我们分析了2022年孟加拉国人口与健康调查(BDHS)的

广告
   X   

摘要

背景

低出生体重(LBW)仍然是低收入和中等收入国家新生儿死亡率和长期发病率的主要原因。本研究旨在利用来自孟加拉国的具有全国代表性的调查数据,开发和评估用于预测低出生体重的机器学习分类器,并明确区分预测建模和因果推断。

方法

我们分析了2022年孟加拉国人口与健康调查(BDHS)的数据,在排除完整案例后得到了3,400对母婴的最终分析样本。通过sample_weight参数和基于簇的数据分割,将调查权重、分层和聚类纳入所有建模步骤中。为保持调查的代表性,我们采用了原生类权重优化(scale_pos_weight,class_weight="balanced")而非合成过采样来解决类别不平衡问题。在考虑簇结构的训练-验证-测试划分下评估了七种机器学习分类器。模型性能通过判别指标(AUROC、PR-AUC)、校准指标(Brier分数、斜率、截距)以及通过分层自助重采样得到的95%置信区间(B=1,000)进行评估。使用SHapley加性解释(SHAP)来提高模型的可解释性,并在预测背景下明确阐述研究结果。

结果

XGBoost在独立测试集上表现出最佳的校准和判别性能:AUROC=0.828(95% CI:0.764–0.887),敏感性=0.711(0.600–0.816),特异性=0.847(0.814–0.876),Brier分数=0.095(0.077–0.114)。SHAP分析确定地理分区、出生顺序、父亲教育水平和家庭财富是最有影响力的预测因素。在双变量分析中不显著但在XGBoost中显著的变量(例如,孩子性别、母亲年龄)可能通过基于树的集成模型的高阶交互作用产生影响。产前护理访问次数与预测的低出生体重风险之间的正相关可能反映了临床分诊模式,而非因果关系。

结论

考虑调查特征的机器学习方法,特别是XGBoost,为孟加拉国的低出生体重风险分层提供了一个稳健的框架。尽管观察性设计排除了因果推断的可能性,且仍需外部验证,但这些发现支持了可解释的机器学习模型在指导针对性母婴健康干预措施方面的潜在效用。未来的工作应优先考虑前瞻性验证和临床生物标志物的整合。

背景

低出生体重(LBW)仍然是低收入和中等收入国家新生儿死亡率和长期发病率的主要原因。本研究旨在利用来自孟加拉国的具有全国代表性的调查数据,开发和评估用于预测低出生体重的机器学习分类器,并明确区分预测建模和因果推断。

方法

我们分析了2022年孟加拉国人口与健康调查(BDHS)的数据,在排除完整案例后得到了3,400对母婴的最终分析样本。通过sample_weight参数和基于簇的数据分割,将调查权重、分层和聚类纳入所有建模步骤中。为保持调查的代表性,我们采用了原生类权重优化(scale_pos_weight,class_weight="balanced")而非合成过采样来解决类别不平衡问题。在考虑簇结构的训练-验证-测试划分下评估了七种机器学习分类器。模型性能通过判别指标(AUROC、PR-AUC)、校准指标(Brier分数、斜率、截距)以及通过分层自助重采样得到的95%置信区间(B=1,000)进行评估。使用SHapley加性解释(SHAP)来提高模型的可解释性,并在预测背景下明确阐述研究结果。

结果

XGBoost在独立测试集上表现出最佳的校准和判别性能:AUROC=0.828(95% CI:0.764–0.887),敏感性=0.711(0.600–0.816),特异性=0.847(0.814–0.876),Brier分数=0.095(0.077–0.114)。SHAP分析确定地理分区、出生顺序、父亲教育水平和家庭财富是最有影响力的预测因素。在双变量分析中不显著但在XGBoost中显著的变量(例如,孩子性别、母亲年龄)可能通过基于树的集成模型的高阶交互作用产生影响。产前护理访问次数与预测的低出生体重风险之间的正相关可能反映了临床分诊模式,而非因果关系。

结论

考虑调查特征的机器学习方法,特别是XGBoost,为孟加拉国的低出生体重风险分层提供了一个稳健的框架。尽管观察性设计排除了因果推断的可能性,且仍需外部验证,但这些发现支持了可解释的机器学习模型在指导针对性母婴健康干预措施方面的潜在效用。未来的工作应优先考虑前瞻性验证和临床生物标志物的整合。

First slide
引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>
First slide
揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>
First slide
对同一细胞中的转录组和表观基因组进行同时分析(使用细胞核分离试剂盒简化样本制备工作流程)>>
First slide
「大小鼠繁育与健康管理」指导海报,点击即可免费领取电子版或实体海报>>
Previous Next
热点排行
  • 1综述:免疫检查点阻断在黑色素瘤中的机制及临床应用
  • 2口服小分子GLP-1受体激动剂(oral small molecule GLP-1 receptor agonist) aleniglipron治疗超重或肥胖人群的随机、双盲、安慰剂对照2b期临床试验
  • 3通过药物手段重新调节病毒与肿瘤之间的相互作用,可以增强麻疹病毒在BRAF突变型结直肠癌模型中的抗肿瘤活性
  • 4综述:持续性炎症在围产期脑损伤后恢复失败中的作用:炎症消退就是治愈的关键吗?
  • 5SERPINE2介导的JAK2/STAT3激活促进了NRF2向细胞核的转运以及GCLC基因的转录,从而赋予肝细胞癌对铁死亡(ferroptosis)和乐伐替尼(lenvatinib)的耐药性
  • 6NOTCH3通过P62–ROS信号通路调控肌成纤维细胞向CAF(癌相关纤维)的分化,从而促进膀胱癌的进展
  • 7NSUN2/m5C/TPI1轴在乳腺癌中促进糖酵解和免疫逃逸
  • 8综述:多囊卵巢综合征(PCOS)中的肠道微生物群:关键的微生物变化、潜在机制及临床应用
  • 9星形胶质细胞特异性NRCAM基因缺陷会促进GABA能突触的修剪,从而加剧骨癌疼痛中的中枢敏化现象
  • 10高压氧疗法可改善慢性疲劳综合症(ME/CFS)患者的临床症状和功能能力,并调节丘脑的连接性:一项前瞻性队列研究
生物通微信公众号
生物通新浪微博
在线客服
微信
新浪微博
我要投稿

返回顶部


生物通 版权所有

订阅Biohot解锁原文链接索取