背景 老年慢性病(chronic diseases)管理常因多重共病(multimorbidity)及终身多重用药(polypharmacy)需求而变得复杂,然而依从性不佳严重阻碍了疾病管理的进展。现有研究主要集中于探索用药依从性的影响因素,而多数预测模型缺乏模型可解释性(model interpretability),且鲜有整合社区老年人群的心理社会支持因素。能够识别依从性风险的预测模型将有助于实现主动干预。目的 开发一种可解释的机器学习(machine learning, ML)预测模型,以填补上述研究空白,预测中国老年慢性病患者的用药依从性。方法 2024年1月至12月,通过药师面对面访谈收集接受居家用药治疗的60岁及以上慢性病患者的相关数据。变量涵盖人口统计学信息、共病情况、慢性病及用药信息、用药依从性、合理用药自我效能(self-efficacy)、用药信念(medication beliefs)、社会支持(social support)及用药素养(medication literacy)。数据集按7:3比例随机划分为训练集和测试集。对所有数据进行多因素logistic回归分析,并通过最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)从训练集中筛选预测变量。采用R软件中六种机器学习算法构建预测模型,并在测试集上比较其性能。采用SHapley Additive exPlanations(SHAP)方法解释最优模型。结果 共计1722例患者纳入统计分析。梯度提升机(gradient boosting machine, GBM)在六种模型中表现出最优的预测性能(AUC = 0.811, 95% CI 0.774–0.840),其核心预测因素为合理用药自我效能、用药实践(medication practice)、担忧信念(concern beliefs)及社会支持的可获得性(availability of social support)。通过SHAP分析,模型的可解释性得到显著增强,为临床医师提供了清晰的决策依据。结论 研究人员构建了老年慢性病患者居家用药依从性的预测模型,该模型整合了影响患者依从性的重要社会心理因素,为制定针对性干预措施提供了有力证据。
随着全球人口老龄化进程加速,高血压、糖尿病、冠状动脉粥样硬化性心脏病等慢性非传染性疾病已成为重大公共卫生挑战。在中国,人口老龄化速度加快导致慢性病患者数量持续攀升,多重共病与多重用药现象日益普遍,慢性病已成为威胁居民健康的主要原因,占全部死亡的80%以上。尽管终身服药是慢性病管理的必要手段,但约50%的患者存在依从性不佳问题,导致疾病控制受损、住院率升高及医疗费用增加。研究表明,依从性改善与更佳的代谢控制、生活质量提升、并发症减少及住院率降低密切相关,依从性每提高10%预计可为每位患者每年节省450美元。早期预测和针对性居家药学服务是提高依从性的有效策略,但中国3亿慢性病患者与有限的居家药师资源之间存在巨大矛盾,普遍性干预缺乏针对性且造成稀缺医疗资源的浪费。此外,既往研究多依赖事后评估,错失了主动干预的窗口期。心理社会因素作为可修饰的用药依从性预测因素,可通过干预措施加以改善。除生理特征外,社会支持、自我效能和用药素养显著影响依从性行为。现有文献虽已识别众多影响老年患者用药依从性的风险因素,但多数研究仅采用单因素分析或传统统计模型,缺乏整合心理社会因素的可解释性预测工具。机器学习为开发精准预测模型提供了经济高效的途径,但现有国内模型常存在样本量小、单中心局限及对中国老年人群心理社会因素考量不足等问题。本研究旨在利用易获取的临床数据构建并验证多种机器学习模型,将自我效能和社会支持等心理社会因素纳入预测框架,预测中国社区老年慢性病患者的用药依从性,并采用SHAP方法解释最优模型的预测输出。
本研究使用非实验性、比较性和预测性研究设计,研究对象为接受长期居家药物治疗的老年慢性病患者,样本来源于北京、广州、三明、郑州和昆明5个城市25个社区,采用方便抽样法招募符合条件的患者。纳入标准为:年龄≥60周岁;诊断为高血压、2型糖尿病、冠状动脉粥样硬化性心脏病或脑卒中至少一种慢性病;接受长期药物治疗;充分了解研究目的并自愿签署知情同意书。排除标准包括患有精神障碍、恶性肿瘤、严重听力障碍或存在沟通困难者。数据通过结构式面对面访谈收集,由经标准化培训的药师口头询问并记录患者回答,问卷内容包括临床因素(慢性病类型、共病数量、病程、用药数量、药物不良反应史及治疗目标达标情况)、人口统计学因素(年龄、性别、婚姻状况、吸烟饮酒情况、居住安排、就业状况、文化程度、月收入及医疗费用支付方式)以及心理社会因素(用药相关自我效能、用药信念、社会支持及用药素养)。用药依从性采用汉化版药物补充与用药依从性量表(Adherence to Refills and Medications Scale, ARMS)测量;自我效能采用汉化版适当用药自我效能量表(Self-efficacy for Appropriate Medication Use Scale, SEAMS)评估;社会支持采用汉化版社会支持评定量表(Social Support Rating Scale, SSRS)评价;用药信念采用汉化版药物信念问卷(Beliefs about Medicines Questionnaire, BMQ)测定;用药素养改编自中国用药素养KAP量表。最终1722份有效问卷纳入统计分析,数据集按7:3随机分为训练集和测试集。预测变量筛选采用两步法:首先对全数据集进行多因素logistic回归分析筛选独立预测因素,继而仅对训练集应用LASSO方法进一步验证并精炼最优预测变量,最终由两种方法共同识别出的四个变量用于构建预测模型。
研究人员将预选特征输入六种不同的机器学习模型以确保预测性能评估的全面性和稳健性,具体包括:logistic回归(logistic regression, LR)、支持向量机(support vector machine, SVM)、决策树(decision tree, DT)、Light梯度提升机(Light Gradient Boosting Machine, LGM)、梯度提升机(gradient boosting machine, GBM)和极端梯度提升(extreme gradient boosting, XGB)。各模型均采用贝叶斯优化进行超参数选择,以训练集受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)最大化为目标。所有模型均经过五折交叉验证以增强稳健性和可靠性,在测试集上通过绘制受试者工作特征(receiver operating characteristic, ROC)曲线评估预测性能,并进行决策曲线分析(decision curve analysis, DCA)和校准曲线分析以分别评估模型的临床效用和预测准确性。最优模型依据测试集AUROC值选定,随后应用SHAP方法解释最优模型中各特征如何影响用药依从性预测,该工具量化各特征贡献以生成全局(模型层面)和局部(个体预测层面)解释,从而提高模型的可解释性和临床适用性。
研究结果显示,1722例老年患者中799例用药依从性良好。患者平均年龄69.72±7.33岁,女性占53.3%,已婚者占83.4%。文化程度方面,小学占29.8%,中学占63.2%,高等占7.0%;88.9%患者接受日常生活照护,92.5%失业;经济状况以中等收入(57.4%)和低收入(39.2%)为主;96.1%参加城镇职工基本医疗保险;慢性病病程超过10年者占43.3%,77.4%报告无药物不良反应。依从性良好组与不良组在以下变量上存在显著差异:体重指数(body mass index, BMI)、用药数量、必要性信念(necessity beliefs)、担忧信念(concern beliefs)、自我效能、主观支持(subjective support)、支持利用度(utilization of support)、用药知识、用药态度、用药实践、文化程度、吸烟状况、月收入及药物不良反应史。
在预测变量选择方面,单因素分析中显著且具有临床意义的变量首先纳入多因素无条件logistic回归模型,结果显示多个变量与结局独立相关。继而应用LASSO算法进一步特征选择,识别出四个预测用药依从性的关键变量:担忧信念、自我效能、支持可获得性和用药实践。为验证筛选结果的一致性,研究人员比较多因素logistic回归与LASSO回归识别的变量,发现LASSO筛选的四个核心变量均包含于多因素logistic回归的独立预测因素中,表明两种方法高度一致。基于这四种核心变量构建最终预测模型,并在测试集上进一步评估模型的区分能力、校准度及临床实用价值。
在模型开发与验证方面,1722例合格参与者被随机分为训练集(n=1205,70%)和测试集(n=517,30%),所有最终模型预测因素及用药依从性状态在两组间分布均衡。六种机器学习模型在训练集中的区分能力以AUROC评估,XGB模型表现最高(AUC=0.850,95% CI: 0.829–0.871),其次为LGB(AUC=0.845)和GBM(AUC=0.843),SVM为0.813,LR和DT最低。在测试集外部验证中,GBM模型表现出最高区分度(AUC=0.811,95% CI: 0.774–0.840),XGB(AUC=0.806)和LGB(AUC=0.802)紧随其后,SVM为0.792,DT和LR最低。综合AUROC、敏感度和特异度,GBM模型表现最优,被确定为预测社区老年人用药依从性的最佳模型。校准曲线显示LGB模型在测试集中校准性能最佳。DCA评估显示DT模型的有效阈值范围最窄(约0–0.76),而GBM、XGB、LGB、SVM和LR模型的有效阈值范围分别为0–0.88、0–0.87、0–0.87、0–0.87和0–0.85。
基于SHAP的模型解释部分,研究人员采用SHAP直观展示各特征如何预测社区老年人的用药依从性。按平均绝对SHAP值排序,四个特征依次为自我效能、用药实践、担忧信念及支持可获得性。自我效能评分、用药实践、担忧信念和支持可获得性与社区老年慢性病患者用药不依从风险升高相关。除全局SHAP解释外,还验证了GBM模型的局部可解释性,能够解释各特征对单个患者用药依从性预测结果的贡献,黄色箭头表示增加风险的因素。
讨论部分,研究人员指出社区老年患者用药依从性是受人口学、心理社会、临床特征及用药相关属性等多因素影响的复杂问题。本研究的关键优势在于不仅比较了多种机器学习模型的性能,还联合传统多因素logistic回归与高级LASSO回归进行特征选择,从而确保最终模型的简洁性和泛化能力。筛选出的四个核心预测因素——自我效能评分、用药实践、担忧信念和支持可获得性——与现有研究结论高度一致。尽管机器学习模型在预测性能上通常优于传统统计模型,但其"黑箱"特性常限制临床接受度和实际应用。本研究通过SHAP分析揭示了各预测因素对用药依从性预测的具体影响方向和程度,将抽象的概率值转化为临床医师可理解和信任的、具有临床意义的解释,显著增强了模型的临床效用和可操作性。
研究结论为:本研究成功构建并验证了基于GBM的社区老年慢性病患者用药依从性预测模型,该模型可有效预测患者用药不依从风险,其核心预测因素为自我效能、用药实践、担忧信念和支持可获得性。通过SHAP分析,模型的可解释性得到显著增强,为临床医师提供了清晰的决策依据。该模型有望广泛应用于临床实践,为改善社区老年慢性病患者的用药管理和健康结局提供有力支持。
打赏