在主要全髋关节置换术后,机器学习算法在预测代表性不足的患者群体中住院时间延长和再次入院情况方面的表现不佳

时间:2026年5月16日
来源:The Journal of Arthroplasty

编辑推荐:

玛丽亚姆·M·拉扎(Marium M. Raza)|米歇尔·里约·清水(Michelle Riyo Shimizu)|肖鹏伟(Pengwei Xiao)|李志军(Zhijun Li)|以赛亚·A·弗里曼(Isaiah A. Freeman)|权英敏(Young-Min Kwon)

广告
   X   

玛丽亚姆·M·拉扎(Marium M. Raza)|米歇尔·里约·清水(Michelle Riyo Shimizu)|肖鹏伟(Pengwei Xiao)|李志军(Zhijun Li)|以赛亚·A·弗里曼(Isaiah A. Freeman)|权英敏(Young-Min Kwon)
美国马萨诸塞州波士顿哈佛医学院麻省总医院骨科手术系生物工程实验室

摘要

背景

全髋关节置换术(THA)的需求正在增加,但在不同种族、民族和社会经济群体之间,手术的可及性和手术结果仍存在差异。机器学习(ML)模型可以帮助预测THA并发症,如住院时间延长(LOS)和30天再入院情况,这对那些可能预后较差的患者群体尤其有用。然而,迄今为止,针对较少被代表的患者亚群体的ML预测性能的研究有限。因此,本研究旨在评估ML模型在预测初次THA后这些亚群体住院时间延长和30天再入院情况方面的公平性和性能。

方法

利用一个全国性数据库(n = 180,762),开发了ML模型来预测THA后的住院时间延长和30天再入院情况。评估了模型在人口统计(年龄、性别、种族和民族)和临床因素(糖尿病状况)方面的公平性。公平性指标包括机会平等、预测平等、预测对等性、统计对等性和准确性平等比率。随后应用了后处理和降维算法来解决模型性能不佳的问题,并确定公平性指标是否有所改善。

结果

对住院时间和再入院算法的公平性分析显示,西班牙裔/拉丁裔患者、女性以及患有糖尿病的患者在关键指标(包括预测对等性和统计对等性)上的模型性能较低。虽然缓解算法提高了模型在某些公平性指标上的表现,但也导致了其他指标的恶化。

结论

尽管ML模型在预测THA结果方面表现出较高的整体准确性,但这些发现强调了评估较小患者亚群体模型公平性的重要性。缓解算法可能有一定作用,但在临床应用之前,应将其纳入更广泛的公平性框架中。

引言

全髋关节置换术(THA)的需求持续增长,预计到2040年每年手术量将超过70万例[1,2]。THA的可及性、护理质量和术后结果在不同种族、民族和社会经济群体之间仍存在显著不平等。研究表明,非白人患者以及来自社会经济条件较差地区的患者接受THA的频率较低[3]。此外,少数族裔和社会经济条件较差的患者在基线功能、疼痛评分、30天并发症发生率以及两年术后结果方面表现更差[4,5]。这些差异凸显了影响关节置换术的临床、社会经济和系统因素之间的复杂相互作用,强调了需要采取以公平为导向的多方面干预措施。
随着THA需求的增加,美国的医疗改革强调了基于价值的护理,将手术报销与医院住院时间(LOS)和再入院等质量指标挂钩。先前的研究显示,住院时间每增加一天,关节置换术的成本负担就会增加2,000至3,000美元[6]。THA后的非计划性再入院率估计在4.0%到10.9%之间,平均费用在10,000至19,000美元之间[7]。这些情况增加了对准确预测可能住院时间延长或非计划性再入院患者的工具的需求,尤其是在那些已经处于预后较差风险中的弱势群体中。基于机器学习的预测模型越来越多地被开发出来,用于预测THA相关并发症,包括住院时间和30天再入院[8]。现有研究表明,这些模型在预测准确性方面表现良好[9,10]。然而,这些研究并未涉及较少被代表的患者亚群体中的潜在模型偏见。偏见被定义为决策过程中的系统性错误,导致不公平的结果。机器学习(ML)模型可能会学习并复制数据中的偏见模式,从而对少数族裔和种族亚群体产生不公平或歧视性结果。基于有偏数据开发ML模型可能是由于这些亚群体的样本量较小、数据缺失或分类和测量误差造成的[11]。另一方面,“公平性”是指人工智能系统中不存在偏见或歧视,确保不同亚群体得到平等或按比例对待。如果不仔细评估各亚群体的偏见,ML工具可能会加剧而不是缓解不平等现象。
虽然美国外科医师学会国家外科质量改进计划(ACS-NSQIP)数据库包含大量样本,但此前曾提出过数据质量、患者选择和数据库结构方面的问题[12, 13, 14]。这些限制可能会影响基于ACS-NSQIP数据库构建的算法模型的性能,尤其是在样本量较小的亚群体中。例如,使用ACS-NSQIP数据的ML模型在预测少数族裔群体的30天并发症方面的表现较差[15]。然而,迄今为止,对于用于预测THA结果的ML模型的“公平性”评估以及偏见缓解尝试仍然有限。因此,本研究的主要目的是评估两个机器学习模型在预测初次THA后这些亚群体住院时间延长和非计划性30天再入院方面的公平性和性能。研究的第二个目的是评估潜在缓解策略的有效性。

章节摘录

机器学习模型开发

在获得机构审查委员会批准后,使用ACS-NSQIP数据库(美国伊利诺伊州芝加哥)评估了2013年至2020年间接受初次THA的患者的记录。排除标准包括:(1)任何候选特征类别中的信息未知或缺失;(2)紧急入院或翻修手术;(3)特征类别中的异常值。最终数据集包含了两组各180,762名患者(表1)。
住院时间延长的预测结果定义为超过...

数据和模型性能

在开发的ML模型中,随机森林(RF)因在住院时间延长(LOS)和再入院方面的AUC值最高(分别为0.91和0.97)而被选为公平性和缓解效果的评估对象。

开发模型的公平性指标

计算公平性指标后,五个指标中有两个(AER、TPR)在不同性别、年龄、种族或糖尿病史的患者之间显示出可接受的值(表4)。女性的假阳性率(FPR)较低(0.77 vs 男性),而有糖尿病史的患者的假阳性率较高(1.36 vs 无糖尿病)。

讨论

本研究评估了ML模型在预测全国THA患者住院时间延长和30天再入院方面的公平性和性能。本研究中分析的ML模型在预测初次THA后的住院时间延长和30天再入院风险方面表现出总体准确性平等。然而,在不同亚群体中观察到了一些公平性指标的差异。虽然模型整体表现良好,但详细评估显示模型加剧了护理方面的不平等现象。

作者贡献:

MR - 构思;撰写初稿;MS - 数据整理、方法论、审稿与编辑;PX - 数据整理、正式分析、软件;ZL - 数据整理、方法论;IF - 数据整理、审稿与编辑;YMK - 构思、监督、审稿与编辑。

CRediT作者贡献声明

玛丽亚姆·M·拉扎(Marium M. Raza):撰写初稿、构思。米歇尔·里约·清水(Michelle Riyo Shimizu):审稿与编辑、方法论、数据整理。肖鹏伟(Pengwei Xiao):软件、正式分析、数据整理。李志军(Zhijun Li):方法论、数据整理。以赛亚·A·弗里曼(Isaiah A. Freeman):审稿与编辑、数据整理。权英敏(Young-Min Kwon):审稿与编辑、监督、构思。

生物通微信公众号
微信
新浪微博


生物通 版权所有