摘要:背景:腰椎管狭窄症(Lumbar Spinal Stenosis, LSS)是脊柱手术的主要适应证,但术后结局存在异质性。研究人员旨在开发并外部验证预测腰椎管狭窄症减压(伴或不伴融合)术后12个月功能障碍及疼痛的预测模型,以辅助医患共同决策(Shared Decision-Making, SDM)。方法:本研究为基于登记数据的多中心队列研究,使用来自三个北欧国家脊柱登记处中接受择期腰椎管狭窄症手术的患者(≥16岁)数据。挪威脊柱手术登记处(Norwegian Registry for Spine Surgery, NORspine, 2007–2023)数据用于模型开发与内部-外部交叉验证(Internal-External Cross-Validation, IECV);瑞典脊柱登记处(Swedish Registry/SweSpine, 2016–2022)和丹麦脊柱登记处(Danish Registry for Spine Surgery/DaneSpine, 2009–2022)数据用于外部验证。主要结局为术后12个月Oswestry功能障碍指数(Oswestry Disability Index, ODI),分别以连续变量及二分类变量(达到可接受症状状态 Acceptable Symptom State, ASS,ODI≤22分)建模;次要结局为术后12个月数字评定量表(Numeric Rating Scale, NRS)评估的腰痛及腿痛强度。采用Logistic回归、线性回归及XGBoost模型,纳入16个术前预测因子,缺失数据采用多重插补(Multiple Imputation by Chained Equations, MICE)处理。模型性能通过校准度(Calibration:Calibration-in-the-large, CITL 及校准斜率 Calibration Slope)、平均绝对误差(Mean Absolute Error, MAE)、校正R2(Adjusted R2)及C统计量(C-statistic/AUC)评估。本研究已在Open Science Framework注册。结果:开发队列含31,908例患者(女性52.4%),外部验证队列分别为SweSpine 30,700例(女性52.8%)和DaneSpine 4,063例(女性54.6%)。ODI连续结局线性回归模型IECV汇总MAE为12.4(95% CI 11.8–13.1),外部验证中SweSpine MAE 13.3(95% CI 13.2–13.4)、DaneSpine MAE 12.3(95% CI 12.0–12.7);校正R2为0.26–0.33;校准良好(校准斜率接近1,CITL范围-0.47至1.54,提示轻微系统性低估)。ODI二分类模型IECV的C统计量为0.75(95% CI 0.74–0.76),外部验证分别为SweSpine 0.78(95% CI 0.78–0.79)和DaneSpine 0.76(95% CI 0.74–0.77)。疼痛模型性能较低(MAE 2.2–2.6;C统计量0.64–0.73)。XGBoost结果与回归模型相似。解读:预测术后功能障碍和疼痛的模型在斯堪的纳维亚各国不同医疗环境中校准良好且具有可泛化性,其中功能障碍(ODI)模型整体表现最佳。研究结果为未来前瞻性评价其在临床实践中对决策制定及患者结局的影响奠定了基础。
资助:挪威研究理事会(Research Council of Norway)。
腰椎管狭窄症术后ODI与疼痛预测模型的开发与跨国外部验证——基于三国国家脊柱登记处大样本队列研究的解读
该研究发表于《eClinicalMedicine》。
一、研究背景与目的
腰椎管狭窄症(Lumbar Spinal Stenosis, LSS)是老年人行脊柱手术最常见指征,当保守治疗失败时行减压手术旨在缓解症状、改善功能,但术后结局高度异质,部分患者仍存在显著功能障碍与疼痛。目前手术决策多依赖临床经验,个体层面术后结局预测仍具挑战。鉴于LSS手术多为择期手术,医患共享决策(Shared Decision-Making, SDM)至关重要,需使患者形成合理预期。既往虽有LSS术后残疾或疼痛预测模型问世,但多数样本量有限、缺乏外部验证或仅关注融合术且将结局二分化,已外部验证模型虽区分度尚可但校准不佳,限制其临床应用。因此,研究人员拟利用挪威、瑞典、丹麦三国国家脊柱登记处数据,开发并外部验证预测LSS择期手术后12个月Oswestry功能障碍指数(Oswestry Disability Index, ODI)及数字评定量表(Numeric Rating Scale, NRS)腰痛和腿痛的多变量统计与机器学习预测模型,以辅助术前咨询与共同决策。
二、主要技术方法
研究为基于登记的回顾性多中心队列研究。开发队列来自挪威脊柱手术登记处(NORspine, 2007–2023, n=31,908),内部-外部交叉验证(Internal-External Cross-Validation, IECV)按挪威4个区域卫生局加私立医院分5组做Leave-one-out验证;外部验证队列分别来自瑞典SweSpine(2016–2022, n=30,700)和丹麦DaneSpine(2009–2022, 南丹麦脊柱中心, n=4,063)。入组标准:≥16岁、择期减压伴/不伴融合术治疗LSS。主要结局为术后12个月连续及二分类(ODI≤22分为可接受症状状态 Acceptable Symptom State, ASS)ODI;次要结局为术后12个月连续及二分类(NRS≤3为ASS)腰痛与腿痛NRS评分。纳入16个术前常用预测因子(人口学、临床特征、合并症、工作状况、镇痛药使用、既往腰椎手术史),经跨登记处标准化统一。缺失数据采用链式方程多重插补(Multiple Imputation by Chained Equations, MICE, 40个数据集),假设随机缺失(Missing At Random, MAR)。分别拟合多元线性回归/Logistic回归(引入多变量分数多项式 Multivariable Fractional Polynomials, MFP 处理非线性)及XGBoost(贝叶斯超参数优化嵌套于IECV防数据泄露),连续模型用校正R2 、平均绝对误差(Mean Absolute Error, MAE)、校准截距(Calibration-in-the-large, CITL)与校准斜率(Calibration Slope)评价,二分类模型用C统计量(C-statistic/AUC)、CITL与校准斜率评价,并按性别与融合手术亚组分析,敏感性分析采用完整病例法。遵循TRIPOD+AI报告规范。
三、研究结果
Study profile(研究流程图)与基线特征(Table 1)
自NORspine筛选33,287例后纳入31,908例,SweSpine 30,700例,DaneSpine 4,063例。三组基线特征相近(平均年龄约65–67岁,女性52%–55%,术前平均ODI 39.5–43.1,术前NRS背痛5.5–6.6,腿痛6.6–6.8),12个月随访完整率67%–80%。说明三国队列具可比性,适合跨国外验证。
Continuous ODI model — IECV(连续ODI模型内部-外部交叉验证)
线性回归模型IECV汇总MAE=12.4(95% CI 11.8–13.1),校正R2 =0.26(95% CI 0.23–0.29),校准斜率0.96(95% CI 0.86–1.06),CITL -0.47(95% CI -2.44~1.49),各区校准良好无显著异质。XGBoost性能近似。表明连续ODI模型在挪威各区域具稳定预测能力与校准。
Binary ODI model — IECV(二分类ODI模型内部-外部交叉验证)
Logistic回归IECV汇总C统计量=0.75(95% CI 0.74–0.76),校准斜率0.96(95% CI 0.92–1.00),CITL 0.05(95% CI -0.21~0.31),提示无显著校准偏移,私立医院略有低估(CITL 0.40)。XGBoost判别与校准相似。说明二分类ODI模型具良好区分度与校准。
Pain outcomes — IECV(疼痛结局内部-外部交叉验证)
NRS背痛连续模型校正R2 =0.14(95% CI 0.11–0.16),腿痛校正R2 =0.10(95% CI 0.07–0.12),均校准良好;二分类NRS背痛C统计量=0.69(95% CI 0.68–0.70),腿痛C统计量=0.66(95% CI 0.65–0.68)。疼痛模型解释度低于ODI模型但校准可接受。
External validation — ODI(ODI模型外部验证)
连续ODI模型在SweSpine:MAE 13.3(95% CI 13.2–13.4),校正R2 =0.33(95% CI 0.33–0.34),校准斜率1.17,CITL 1.28;在DaneSpine:MAE 12.3(95% CI 12.0–12.7),校正R2 =0.28(95% CI 0.26–0.30),校准斜率0.94,CITL 1.54。二分类ODI模型SweSpine C统计量=0.78(95% CI 0.78–0.79),DaneSpine C统计量=0.76(95% CI 0.74–0.77),校准斜率分别1.16与0.97,CITL轻微负偏。证明ODI模型在跨国外部验证中保持良好泛化性与可接受校准,仅有轻微系统性低估(预测值略低于观测值)。
External validation — pain(疼痛模型外部验证)
NRS背痛MAE SweSpine 2.21、DaneSpine 2.25;腿痛MAE SweSpine 2.51、DaneSpine 2.59;二分类C统计量NRS背痛0.73(两队列),腿痛0.68(SweSpine)及0.64(DaneSpine)。校准尚可。疼痛模型跨国验证性能与内验证一致,但低于ODI模型。
Decision curve analysis and subgroup analyses(决策曲线分析与亚组分析)
ODI二分类模型决策曲线分析显示,在较宽阈值概率范围(≥0.2起)净获益(Net Benefit)优于"全部治疗"与"不治疗"策略,预测概率分布中达ASS者集中于高预测概率、未达ASS者集中于低预测概率。按性别(男/女)及单纯减压vs减压+融合分层,各模型MAE、校正R2 及C统计量与总体无临床显著差异;完整病例敏感性分析与多重插补主分析一致。说明模型在不同人群亚组中稳健,具潜在临床效用。
四、讨论与结论总结
既往脊柱手术预测模型多停留在开发阶段且缺乏外部验证或校准差,本研基于三国国家登记处大样本开发了仅需16个常规采集术前变量的ODI及疼痛预测模型,经严格IECV及跨国外部验证证实:ODI连续与二分类模型校正R2 达0.26–0.33、C统计量达0.75–0.78,校准斜率近1,在挪威各区域及瑞典、丹麦队列中泛化良好;疼痛模型性能中等(C统计量0.64–0.73,校正R2 0.07–0.21)。传统回归与XGBoost表现相当,提示线性假设已充分捕捉预测关系。模型存轻微校准漂移(CITL 1.28–1.54提示稍低估),但在ODI 0–100分尺度上临床意义有限。局限含未测混杂因素、仅北欧人群验证、随访缺失用MAR假设插补、缺少影像细节预测因子。模型拟整合入电子病历决策支持工具辅助术前个体化预期管理而非替代临床判断,未来需在目标人群中行影响研究与成本效益评估。
结论(翻译):
研究人员利用三个北欧国家脊柱登记处的大样本数据开发并外部验证了预测腰椎管狭窄症术后功能障碍与疼痛的统计及机器学习模型。对于连续与二分类结局定义,预测功能障碍的模型表现出良好的整体性能,最高可解释34%的结局变异,外部验证C统计量可达0.78。模型在挪威国内及瑞典、丹麦外部验证队列中均具良好泛化性。研究结果表明,基于常规收集临床信息的预测模型可跨越国家登记处及医疗环境实现泛化,为未来研究中前瞻性评价其对临床决策制定及患者结局的影响、并潜在整合入临床以支持共享决策奠定了基础。
打赏