前沿洞察:机器学习构建体育活动指南依从性预测模型 —— 关键变量与创新策略解析

时间:2025年2月16日
来源:Scientific Reports

编辑推荐:

为解决体育活动指南依从性预测及关键影响因素不明的问题,美国密西西比大学的研究人员开展相关主题研究。他们用机器学习构建模型,发现久坐行为等是关键变量。该研究为干预措施制定提供依据,值得科研读者一读。

广告
   X   

美国密西西比大学(The University of Mississippi)健康、运动科学与休闲管理系健康与运动分析实验室的研究人员 Ju-Pil Choe、Seungbak Lee 和 Minsoo Kang 在《Scientific Reports》期刊上发表了题为 “Machine learning modeling for predicting adherence to physical activity guideline” 的论文。这篇论文在运动健康研究领域意义重大,它借助机器学习技术构建预测模型,为精准促进人们遵循体育活动指南提供了科学依据,有望推动公共健康干预措施的优化,助力提升大众健康水平。

研究概述


该研究旨在运用机器学习(ML)创建预测人们是否遵循体育活动指南的模型,并探究影响遵循情况的关键因素。研究人员分析了来自美国国家健康与营养检查调查(NHANES)的 11,638 条数据记录,将相关变量分为人口统计学、人体测量学和生活方式等类别,运用 6 种机器学习算法构建了 18 个预测模型,并通过准确率、F1 评分和曲线下面积(AUC)等指标对模型进行评估。此外,还采用排列特征重要性(PFI)方法评估各模型中变量的重要性。研究结果显示,使用所有变量的决策树模型在预测体育活动指南遵循情况方面表现最佳;久坐行为、年龄、性别和教育程度是最重要的变量。这些发现为运动健康领域利用数据驱动方法提供了新的思路,也为制定针对性干预措施提供了关键参考。

研究背景


持续且充足的体育活动(PA)对整体健康至关重要,它不仅能影响慢性疾病、心理健康和代谢综合征,还与预期寿命密切相关。为此,全球制定了多种体育活动指南,世界卫生组织(WHO)建议成年人每周进行 150 - 300 分钟的中等强度体育活动,或 75 - 150 分钟的高强度体育活动,或两者的等效组合。然而,现实并不乐观,美国仅有约 24% 的人口能达到体育活动指南的要求。

过去,分析影响体育活动指南遵循情况的因素主要依赖逻辑回归和受试者工作特征曲线等经典方法。但随着人工智能,尤其是机器学习的兴起,为体育活动研究开辟了新途径。机器学习在处理过拟合、多重共线性和大数据挑战等方面具有优势,已有不少研究尝试将其应用于体育活动领域,如预测学前儿童体育活动类型、分类体育活动强度等。不过,此前研究仍存在不足:对分类模型的变量组合研究有限;用于预测建模的算法种类较少;在客观测量的体育活动数据不可用时,缺乏仅基于主观问卷数据的研究。基于此,本研究旨在利用主观问卷数据和多种算法构建预测模型,并确定最适宜的变量组合和关键变量。

研究方法


  1. 采用 CRISP - DM 框架:本研究采用了数据挖掘的跨行业标准流程(CRoss Industry Standard Process for Data Mining,CRISP - DM),该框架在机器学习研究中被广泛认可。它涵盖领域理解、数据理解、数据准备、建模、模型评估和模型部署六个阶段,有助于系统地预测个体对体育活动指南的遵循情况。
  2. 数据来源与处理:研究数据来自美国国家卫生统计中心(NCHS)开展的美国国家健康与营养检查调查(NHANES)。NHANES 每两年发布一次数据,本研究选取了 2009 - 2018 年这五个周期的数据,涵盖约 30,352 条记录。为确保数据代表性,分析时应用了样本权重。研究对数据进行了严格筛选,排除了有缺失值、孕妇以及患有高血压、糖尿病、癌症、关节炎或身体活动受限的参与者,最终得到 11,638 名参与者的数据。同时,研究生成了新变量强度加权体育活动(IWPA),并将其作为目标变量,还对饮酒和吸烟相关变量进行整合,将分类特征转换为数值格式。
  3. 建模过程:建模过程包括数据分割、选择算法和超参数调整。数据分割进行了两次,首先将数据集按 80% 训练集、20% 测试集的比例划分;在模型训练阶段,采用分层 10 折交叉验证进一步分割数据以防止过拟合。研究选用了逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)、决策树(Decision Tree)、随机森林(Random Forest)、极端梯度提升(XGBoost)和轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)这 6 种机器学习算法。针对每种算法,研究运用网格搜索技术调整超参数,以优化模型性能。
  4. 模型评估与特征重要性分析:使用分类混淆矩阵评估模型性能,计算准确率、精确率、召回率、特异性、F1 评分等指标,同时采用曲线下面积(AUC)衡量模型的分类能力。为了解模型中变量的重要性,研究采用排列特征重要性(PFI)方法,通过打乱变量值观察模型预测误差的变化来确定变量重要性。
  5. 统计分析工具:数据预处理使用 R 版本 4.1.3,主要分析使用 Python 版本 3.8。通过独立 t 检验、方差分析和 Tukey 的诚实显著差异(HSD)检验来检查组间差异和统计显著性,p 值小于 0.05 被认为具有统计学意义。

研究结果


  1. 变量差异分析:在 13 个变量中,年龄、种族、教育程度、婚姻状况、收入、BMI、腰围、饮酒、就业状况和久坐行为(SB)这 11 个变量在加权平均 IWPA 时间上存在显著差异(p < 0.05),而吸烟和睡眠时间这两个变量无显著差异。
  2. 模型排名:研究构建的 18 个模型中,依据有效性得分(包括交叉验证评估模型稳健性和测试得分评估模型泛化能力,总排名由两者得分排名之和确定),前 10 名模型中,使用所有变量的组合有 6 个模型,使用生活方式和人体测量学变量的组合有 4 个模型。从算法角度看,决策树、逻辑回归、随机森林和轻量级梯度提升机各被使用 2 次,支持向量机和极端梯度提升机各被使用 1 次。其中,使用所有变量的决策树算法模型(准确率:0.705,F1 评分:0.819,AUC:0.542)在预测体育活动指南遵循情况方面最为稳健。
  3. 特征重要性排序:通过 PFI 分析,在所有模型中,久坐行为(SB)是被选次数最多的变量,其次是年龄、性别和教育程度。在 10 个模型中,SB 有 7 次被列为最重要变量,BMI 有 2 次排名第一,教育程度有 1 次排名第一。

研究结论与讨论


  1. 关键变量确定:排列特征重要性(PFI)结果表明,在构建预测模型时,久坐行为(SB)是最为关键的特征,在 10 个模型中有 7 次排名第一。久坐行为与体育活动密切相关,是人类日常活动的重要组成部分,它与体育活动在时间分配上相互制约,对健康产生相反影响。除了久坐行为,年龄、性别和教育程度也是重要变量。男性通常比女性更活跃,不同年龄组有不同的体育活动需求,教育程度也与体育活动水平相关,受教育程度越高,每周高强度活动时间可能越长。这些发现与以往研究结果相符,进一步验证了这些变量在预测体育活动指南遵循情况中的重要作用。
  2. 变量组合效果:研究发现,使用所有变量的模型在预测体育活动指南遵循情况方面表现出色,6 个此类模型进入前 10 名;生活方式和人体测量学变量组合的模型也有较好表现,有 4 个进入前 10 名;而仅使用人口统计学变量的模型未进入前 10 名。这表明,生活方式和人体测量学变量组合对模型预测更为有效,其中久坐行为的重要性可能超过其他变量,影响了变量组合的比较结果。
  3. 算法有效性验证:在 10 个最佳模型中,7 个模型采用了决策树或基于决策树的集成方法,如随机森林、极端梯度提升和轻量级梯度提升机。决策树算法在活动分类研究中应用广泛,但存在过拟合等问题。而集成方法通过结合多个模型的优势,在体育活动分类中表现出更高的稳健性和准确性,优于单个分类器算法,是体育活动分类算法的有效选择。
  4. 研究意义与局限:本研究首次仅使用主观测量变量和机器学习构建预测体育活动指南遵循情况的模型,并确定了关键预测因素。这对设计针对性的公共卫生干预措施和临床策略意义重大,例如减少久坐行为、制定针对不同年龄和教育程度人群的体育活动计划,可提高人们对体育活动指南的遵循率,有效利用资源促进体育活动推广。然而,研究也存在局限性。研究对象仅为无身体活动限制(如疾病和怀孕)的人群,后续研究应扩大研究对象范围;研究使用的变量有限,且合并了生活方式和人体测量学变量,可能影响结果,未来研究应选择更多变量并平衡各类变量数量;此外,研究未纳入轻度体育活动,限制了结果的全面性,后续研究应考虑纳入该变量,更全面评估体育活动的影响。虽然研究利用了大量主观测量数据,但模型有效性得分相对使用客观测量数据的研究较低,还需探索更好利用主观测量数据的方法。

总的来说,这项研究揭示了生活方式和人体测量学变量在预测体育活动指南遵循情况模型中的重要性,确定了久坐行为、年龄和教育程度等关键变量,验证了基于决策树的集成算法的有效性。研究结果为公共卫生和临床实践提供了有价值的参考,有助于制定个性化体育活动干预措施,提升大众健康水平,同时也为后续体育活动相关研究奠定了基础,指明了方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有