编辑推荐:
本研究针对美国非裔(NHB)与白人(NHW)初产妇女早产(PTB)差异问题,通过整合PRAMS和SVI数据,采用Elastic Net、随机森林和XGBoost机器学习模型,结合SHAP值解析个体与社区因素的交互作用。研究发现≥9次产检(保护性|SHAP|0.42-1.58)、妊娠高血压(风险性|SHAP|0.17-0.20)等共同预测因子,同时揭示社区经济劣势对NHB妇女影响更显著(AUC 0.87-0.93)。该研究为制定针对性干预策略提供了量化依据。
在美国这个高收入国家,早产(Preterm Birth, PTB)发生率却位居全球前列,2022年约10%的新生儿为早产儿。更令人担忧的是,非西班牙裔黑人(Non-Hispanic Black, NHB)妇女的PTB风险比非西班牙裔白人(Non-Hispanic White, NHW)高出50%。这种差异背后隐藏着复杂的健康社会决定因素(Social Determinants of Health, SDoH),包括系统性种族主义导致的资源分配不均。传统线性模型难以捕捉个体因素(如产检次数)与社区因素(如贫困率)间的非线性交互,使得PTB差异的驱动机制长期未被充分阐明。
为破解这一难题,Sangmi Kim团队在《BMC Pregnancy and Childbirth》发表研究,创新性地将机器学习与解释性分析相结合。研究整合了美国9个州2016-2021年的妊娠风险评估监测系统(Pregnancy Risk Assessment Monitoring System, PRAMS)数据与社会脆弱性指数(Social Vulnerability Index, SVI),纳入9,595例初产妇女(NHB 3,206例,NHW 6,389例)。通过Elastic Net、随机森林和XGBoost三类算法建模,并采用SHAP(SHapley Additive exPlanations)值量化特征重要性。
关键技术方法包括:1) 数据预处理中采用中位数填补和"NA"编码处理缺失值;2) 使用拉丁超立方抽样进行超参数调优(网格大小500);3) 5折交叉验证评估模型性能;4) 通过SHAP值解析NHB/NHW特异性预测因子;5) 敏感性分析验证模型稳健性。
主要结果
1. 人口学特征差异
NHB妇女PTB未加权发生率较NHW高1.2倍(22.2% vs 18.5%),经权重校正后风险比升至1.78倍。NHB组更易面临社会经济劣势:59.5%接受WIC营养补助(vs NHW 23.0%),26.7%孕期增重不足(vs 19.4%),25.1%产检≤8次(vs 14.7%)。
2. 机器学习预测效能
三类模型均表现出色,NHB组AUC 0.87-0.91,NHW组AUC 0.90-0.93。XGBoost在两组中表现最优,验证了方法可靠性。
3. 关键预测因子解析

4. 敏感性验证
扩展模型至85个预测变量未提升准确率(AUC变化<0.01),排除胎膜早破(Premature Rupture of Membrane, PROM)后结论仍稳定,证实模型稳健性。
讨论与意义
该研究首次通过可解释机器学习量化了社区层面社会脆弱性对PTB的直接影响。发现NHB妇女呈现"年龄加速效应"——同龄情况下,35-39岁NHB妇女PTB风险较NHW高8.5%,暗示长期系统性压力导致的生物学损耗。研究建议:1) 临床应结合Kotelchuck产检充足指数(而非仅次数)评估风险;2) 政策需针对"红线歧视"历史遗留问题,投资社区经济重建;3) 未来研究需纳入更精细地理数据。这些发现为消除健康差异提供了数据驱动的干预靶点。
研究局限性包括PRAMS仅提供州级地理标识、产后回顾性收集妊娠意愿数据可能产生回忆偏倚等。但通过分层建模和先进算法,该工作为理解PTB的多维决定因素设立了新范式。
生物通 版权所有