这项研究发表在《Scientific Reports》上,旨在利用机器学习方法,预测并识别东非十个国家中青少年妊娠的决定因素。研究采用了监督式机器学习(supervised machine learning)方法,具体运用了随机森林(Random Forest)算法来分析预测变量与青少年妊娠结局之间的关系。为开展研究,研究人员主要采用了以下几个关键技术方法:首先,研究数据来源于人口与健康调查(Demographic and Health Surveys, DHS),这是一个大规模的复杂数据集。其次,在数据预处理阶段,研究处理了缺失值,进行了特征缩放(feature scaling),并使用了Tomek Links和合成少数类过采样技术(Synthetic Minority Over-sampling Technique, SMOTE)来应对类别不平衡(class imbalance)问题。最后,模型性能通过多种指标进行评估,包括准确率(accuracy)、混淆矩阵(confusion matrix)和受试者工作特征曲线下面积(Receiver Operating Characteristic Area Under the Curve, ROC AUC),并使用独立的测试集进行了最终验证,以确保模型的泛化能力和预测准确性。