全髋关节置换术(THA)的需求持续增长,预计到2040年每年手术量将超过70万例[1,2]。THA的可及性、护理质量和术后结果在不同种族、民族和社会经济群体之间仍存在显著不平等。研究表明,非白人患者以及来自社会经济条件较差地区的患者接受THA的频率较低[3]。此外,少数族裔和社会经济条件较差的患者在基线功能、疼痛评分、30天并发症发生率以及两年术后结果方面表现更差[4,5]。这些差异凸显了影响关节置换术的临床、社会经济和系统因素之间的复杂相互作用,强调了需要采取以公平为导向的多方面干预措施。
随着THA需求的增加,美国的医疗改革强调了基于价值的护理,将手术报销与医院住院时间(LOS)和再入院等质量指标挂钩。先前的研究显示,住院时间每增加一天,关节置换术的成本负担就会增加2,000至3,000美元[6]。THA后的非计划性再入院率估计在4.0%到10.9%之间,平均费用在10,000至19,000美元之间[7]。这些情况增加了对准确预测可能住院时间延长或非计划性再入院患者的工具的需求,尤其是在那些已经处于预后较差风险中的弱势群体中。基于机器学习的预测模型越来越多地被开发出来,用于预测THA相关并发症,包括住院时间和30天再入院[8]。现有研究表明,这些模型在预测准确性方面表现良好[9,10]。然而,这些研究并未涉及较少被代表的患者亚群体中的潜在模型偏见。偏见被定义为决策过程中的系统性错误,导致不公平的结果。机器学习(ML)模型可能会学习并复制数据中的偏见模式,从而对少数族裔和种族亚群体产生不公平或歧视性结果。基于有偏数据开发ML模型可能是由于这些亚群体的样本量较小、数据缺失或分类和测量误差造成的[11]。另一方面,“公平性”是指人工智能系统中不存在偏见或歧视,确保不同亚群体得到平等或按比例对待。如果不仔细评估各亚群体的偏见,ML工具可能会加剧而不是缓解不平等现象。
虽然美国外科医师学会国家外科质量改进计划(ACS-NSQIP)数据库包含大量样本,但此前曾提出过数据质量、患者选择和数据库结构方面的问题[12, 13, 14]。这些限制可能会影响基于ACS-NSQIP数据库构建的算法模型的性能,尤其是在样本量较小的亚群体中。例如,使用ACS-NSQIP数据的ML模型在预测少数族裔群体的30天并发症方面的表现较差[15]。然而,迄今为止,对于用于预测THA结果的ML模型的“公平性”评估以及偏见缓解尝试仍然有限。因此,本研究的主要目的是评估两个机器学习模型在预测初次THA后这些亚群体住院时间延长和非计划性30天再入院方面的公平性和性能。研究的第二个目的是评估潜在缓解策略的有效性。