个体患者风险预测与选择最优预测模型的陷阱:勿以C统计量论模型优劣

时间:2026年5月28日
来源:European Journal of Epidemiology

编辑推荐:

研究人员通常报告曲线下面积(area under the curve, AUC,亦称c-statistic)、Brier指数(Brier-index, BI)以及解释变异度(R2)来评估风险预测模型的性能。然而,这些指标可能并不适用于评估

广告
   X   

研究人员通常报告曲线下面积(area under the curve, AUC,亦称c-statistic)、Brier指数(Brier-index, BI)以及解释变异度(R2)来评估风险预测模型的性能。然而,这些指标可能并不适用于评估个体患者的风险评分,因为人群特征,如风险评分分布,可能影响这些性能指标。本研究在不同的分布下,评估了一个完全准确的风险评分所能达到的性能值。研究人员模拟了100,000名个体的0-100%的风险评分,采用1000次自举法(bootstrap),设置了六种分布:正态分布、均匀分布、双峰分布、极端双峰分布、均匀递增分布和均匀递减分布。模拟的结局事件与评分完全一致:评分为0.01的个体中有1%发生事件,评分为0.02的有2%发生事件,依此类推。计算了AUC、BI、标准化Brier指数(scaled Brier-index, BS)以及R2的值,并绘制了校准图(calibration plot)。敏感性分析包括缩窄风险评分范围和降低评分粒度(granularity)。对于正态分布的评分,性能指标未超过通常被认为是“差”的数值(AUC = 0.67, BI = 0.23, BS = 0.08, R2 = 8%)。性能值在极端双峰分布下最佳(AUC = 0.93, BI = 0.10, BS = 0.61, R2 = 61%)。其他分布的性能指标处于中等水平(AUC = 0.80–0.83, BI = 0.17–0.18, BS = 0.25–0.33, R2 = 25–33%)。所有分布的校准图均显示完美校准。当评分范围缩窄时,指标值变差。降低粒度的影响很小。风险预测模型的性能值在很大程度上取决于风险分布。在许多常见的风险分布中,这些指标可能无法超过通常被认为是差或中等的水平。因此,当评估患者风险预测模型时,关注风险估计准确性的研究人员和临床医生,应优先考虑校准度和净获益(net benefit),而不是常用的AUC和BI等指标。
在普通医学领域,用于风险估计的预测模型备受关注。这些模型利用个人特征来计算个体在特定时间段内发生严重临床事件(如心肌梗死、卒中或死亡)的风险。其结果可用于告知医生和患者预后,并指导治疗决策。例如,用于估算10年新发心血管疾病风险的风险评分(如SCORE2和QRISK3[1, 2]),可能帮助医生判断是否适合启动一级预防治疗[3,4,5]。通常,这些评分在一个队列中开发,随后在其他队列中进行外部验证(external validation),以评估其普适性和临床实践中的潜在适用性[6]。为表征模型性能,多种指标被常用(Box 1),其中曲线下面积(area under the curve, AUC),亦称“c-statistic”(范围0.5至1,越高越好)是最突出的[7,8,9]。AUC指代区分度(discrimination):模型正确区分更可能发生事件与不太可能发生事件的个体的能力。其他常报告的指标包括Brier指数(范围0至1,越低越好)、R2(范围0至1,越高越好)和净重分类改善(Net Reclassification Improvement, NRI,范围-2至2,越高越好)。这些参数涉及整体模型性能(Brier/R2)或与其他评分相比的比较性能(NRI)。校准度(Calibration),即预测风险与观察风险在预测评分范围内的符合程度,主要通过校准图的视觉检查以及比较观察发病率与预测发病率来评估[8,9,10,11]。所有这些传统的性能指标都有固定范围,但其解释复杂且因研究而异[7,8,9,10,11]。例如,研究人员通常认为AUC低于0.6明确为“差”,高于0.8为“好”,但0.6至0.8之间的值可能被标注为差、中等、尚可或好,这些判断缺乏明确依据[7]。这种摇摆不定的评级表明,只要预测模型的性能评分未达完美,就有改进空间。此外,验证研究常常发现预测模型在验证队列(或其亚组)中的性能评分比在原始开发队列中更差,这持续引发对新的、更优预测模型的呼声[1, 12, 13]。然而,预测模型通常无法达到最佳分数。估计的事件风险在0到100%之间,在个体水平上本质上是不准确的,因为事件要么发生要么不发生,且模型性能受到人群特征(如风险评分分布)的影响。因此,尽管这些性能指标的理论最优值已知,但现实中可以期待什么数值尚不明确。

本研究旨在展示一个完全准确的、理论上“完美”的风险评分,根据常用性能指标的表现如何,并评估人群特征(如评分分布)的潜在影响。

Box 1. 性能指标及其解释[7,8,9]
- AUC/C-statistic:区分度。随机选择一个发生事件的个体和一个未发生事件的个体,发生事件的个体评分更高的机会。等同于受试者工作特征(receiver operating characteristic, ROC)曲线下的面积。范围0–1,越高越好。评级无明确依据:0.50–0.60:差;0.60–0.75:差/中等/尚可;0.75–0.90:中等/尚可/好;0.90-1.00:好/优。
- Brier指数:整体性能:捕捉校准度和区分度。二元结局Y与预测风险P之间差异平方的均值(Y-P)2。最大(即最差)分数取决于发病率。对于发病率I,最大分数为I*(1-I)2+(1-I)*I2。范围0–1,越低越好。没有明确的“好”分数值。从0.00(完美)到0.25(无信息量,若结局发病率为50%)呈指数变化。对于发病率较低的情况,无信息量分数降低。
- 标准化Brier指数(Scaled Brier Index):整体性能:捕捉校准度和区分度。针对无信息量分数随发病率变化而调整的Brier指数。表示为从无信息量到完美的范围的百分比:1-{Brier/[mean(p)*(1-mean(p)]}。范围0-100%,越高越好。没有明确的“好”分数值。从0%(无信息量)到100%(完美)呈指数变化。类似于皮尔逊R2
- R2:整体性能:捕捉校准度和区分度。预测变量解释的结局变异。对于二元结局,常使用Nagelkerke’s R2对数评分规则。范围0–1,越高越好。没有明确的“好”分数值。从0%(无信息量)到100%(完美)呈指数变化。类似于标准化Brier指数。
- NRI:重分类。相对指标,将新预测评分与参考预测评分进行比较。分别在有事件组和无事件组中,使用新评分比使用参考评分进行更恰当重分类的个体净比例之和。范围-2至2,越高越好。没有明确的“好”分数值。得分为2表示所有发生事件的参与者新评分均高于参考评分,所有未发生事件的参与者新评分均低于参考评分。得分为-2则相反。解释困难:(1) 事件组和非事件组的重分类比例权重相等,而不考虑比较组的大小;(2) 对新旧预测之间差异的大小不敏感;(3) 可能对无信息的新标志物产生假阳性。
- 校准图(Calibration plot):校准度。在预测评分的分位数(通常是十分位数)中绘制预测与观察的结局发生率图,或绘制评分与结局Y之间的平滑回归线。对风险分层模型的准确性最为相关。在每个十分位数中,预测/观察(P/O)结局比例应相等。回归线应作为浮动平均值或在每个十分位数中与P/O对齐。回归斜率应为1,截距应为0。截距高于或低于0表示系统性高估或低估。

研究人员使用R软件4.3.1版本模拟了100,000名个体的数据。个体被分配一个随机的风险评分,表示其从0%到100%的事件风险,该评分遵循六种不同的假设分布(图1;在线方法1):(1)正态分布;(2)均匀分布(评分从0到1均匀分布);(3)双峰分布;(4)以两个极端值(0和1)为中心的双峰分布;(5)左偏分布;(6)右偏分布。

然后,为每种分布计算一个结果变量,该变量完全符合风险评分:评分为0.01的个体有1%的事件风险(结果为1),评分为0.99的个体有99%的风险(结果为1),依此类推。此后,根据所研究的指标评估风险评分与结果变量之间的关系:AUC、Brier指数、标准化Brier指数、连续NRI和R2。由于连续NRI是一个相对指标,用于比较模型与先前模型的性能,因此采用结果的平均发病率作为比较(类似于截距或人群的先验风险),即Pencina等人[14]定义的“来自零模型的净重分类(net reclassification from the null model, NRI0)”。这些模拟重复了1,000次以考虑模拟分布中的随机变异性。从结果中,报告了每次自举的指标的中位数、最小值和最大值。为说明目的,为每种分布生成了直方图,包含相应的事件以及相应的校准图,使用了CalibrationCurves包。

研究人员进行了几项敏感性分析。首先,为评估风险范围的影响,将风险评分减半(范围0至0.5)后重复分析。随后,通过在减半风险评分的基础上加上0.25来围绕平均值移动风险评分范围(使每个分布的中心保持在0.5,评分范围0.25至0.75)。重复此操作,加上0.50(使每个分布的中心在0.75,评分范围0.5至1.0)。其次,通过将风险评分值四舍五入到最接近的10%(即0.1,0.2,0.3等)来评估风险评分粒度(granularity)的影响。第三,评估操纵风险分布的影响,根据风险预测值的十分位数将风险评分分成10个大小相等的组,这是一种常用的变量分类策略。最后,进行分析以评估当所有低于和高于特定风险阈值的个体分别被归类为“无事件”和“事件”时的性能指标值。在每次自举中,对0到1之间的随机阈值进行此操作,从而评估0到1之间所有阈值的可能性能值范围。

为了让读者评估本文未包含的其他常见分布(如威布尔分布和伽马分布),研究人员创建了一个Shiny应用(https://jan-willem-van-dalen.shinyapps.io/app-1/),用户可以定义自己的分布参数及其相应的分析结果。

最后,为评估这些评分分布如何影响净获益(net benefit),研究人员绘制了决策曲线分析(decision curve analysis)图。这些图描绘了对预测风险水平以上(横轴)参与者进行治疗的净获益(纵轴),并与对所有人治疗和对无人治疗进行比较[15]。推荐使用“净获益”而非NRI等方法来评估临床效用。通常认为,如果模型的净获益在一系列合理的风险阈值下高于“治疗所有人”和“不治疗任何人”,则该模型具有临床效用。模型的临床价值在模型的净获益与次优策略之间差距最大的阈值处最大。

研究结果在图1中呈现。图中展示了每种评分分布的直方图,发生事件的个体用红色阴影表示,校准图投影在直方图上方。每张图下方显示了相应分布的预测指标值。对于一个具有完美准确性的正态分布风险评分,AUC为0.67,Brier指数(BI)为0.23,标准化Brier指数(BS)为0.08,R2为8%,NRI为0.48。对于均匀分布(AUC = 0.83, BI = 0.17, BS = 0.33, R2 = 33%, NRI = 1.0)和双峰正态分布(AUC = 0.80, BI = 0.18, BS = 0.28, R2 = 28%, NRI = 1.00),这些值更好。预测指标值在极端双峰分布下最佳(AUC = 0.93, BI = 0.10, BS = 0.61, R2 = 61%, NRI = 1.52)。均匀递减和均匀递增分布的值相同(均为:AUC = 0.80, BI = 0.17, BS = 0.25, R2 = 25%, NRI = 0.89)。所有这些估计值都具有较窄的自举范围。对于所有这些分布,校准图完美地对齐了观察率和预测率,斜率为1,截距为0,证实了风险评分的完美准确性。Box 2提供了一个真实世界临床解释的示例。

Box 2. 真实世界示例
想象一个假设的患者,其新发心血管疾病风险在人群中先验地呈正态分布。使用完美校准的风险预测工具(即每100名风险为25%的患者中有25人发生心血管事件)的医生,可以预期该预测工具的最大AUC为0.67。AUC更高的预测工具则越来越不准确:如果AUC为1,那么所有100名风险为25%的患者要么都发生事件,要么都不发生,此时预测工具的校准度将非常差。其他常用指标如Brier评分、解释变异度(R2)和NRI在这个例子中同样缺乏信息量。因此,在临床实践中,应依据校准度指标来评判这种风险估计预测工具的性能。

敏感性分析结果总结于表1。补充图1-6描述了敏感性分析对不同分布的直方图和校准图的影响。当风险评分范围缩窄时,AUC、BS、R2和NRI值降低。Brier指数呈现类似模式,除了正态和不对称分布在较窄范围内的值低于原始分析。对于所有范围,校准图均显示完美校准,截距为0,斜率为1(补充图1-6,面板1-3)。在评估将四舍五入的风险评分作为预测因子的敏感性分析中,结果与原始分析几乎相同,校准图显示完美校准(补充图1-6,面板4)。在将预测评分分为十分位数的敏感性分析中,除NRI外,所有指标的结果也与原始评分相同,后者的每个分布均为0。在这些分析中,校准图在预测风险和观察风险之间出现偏离,校准斜率偏离1,截距不为0(补充图1-6,面板5)。在基于0到1之间的风险评分阈值对结果进行二分化的分析中,AUC、Brier指数和BS在所有评估的分布中始终观察到完美的值(分别为1、0和1)(补充图7)。这是唯一一次BS与R2值有显著差异的分析。R2和NRI的值取决于所选阈值(因此最小值-最大值几乎涵盖了分数的全部范围)。在这些分析中,校准图显示了预测风险和观察风险之间的巨大差异,校准截距和斜率分别从0到1发生极端偏离。最后,决策曲线分析图(补充图8)显示净获益也因不同的风险分布而异。然而,所有图都表明预测模型优于替代策略(治疗所有人/不治疗任何人)。根据预测模型与次优策略之间的差异,模型的最大临床价值一致位于人群平均风险处。

Table 1. 针对所分析性能指标的原始主分析和敏感性分析结果(此处从略)

当前研究清楚地表明,根据几种常用性能指标评估的预测模型性能,在很大程度上取决于风险分布。对于特定分布(这些分布可能在实践中常见)的性能分数范围,阐明了在验证研究中对不同指标可以现实地期待什么。关键的是,本研究强调了为正确研究问题使用正确指标的重要性。先前已有几项研究警告过分布可能对AUC产生的影响[16,17,18]。AUC最适合用于旨在将个体完全准确地二分为有无事件的检测,例如用于诊断急性心肌梗死的血液检测[19],它有效地提供了检测灵敏度和特异度的汇总估计。然而,对于判断人群风险预测评分(如SCORE或QRISK3)如何准确捕捉个体的风险百分比,AUC提供的信息相对有限,尽管临床上有用的评分可能具有高AUC[20]。AUC对于额外协变量的附加价值也不敏感,这些协变量与风险增加强烈相关,但不会增加评分分布的双峰性,这可能使得AUC差异在评估更新模型的附加价值时失去信息量[16, 21]。虽然Brier指数主要衡量整体模型性能,被认为与区分度和校准度都有关[8],但当前分析显示,除了最极端的二分化风险评分分布外,其值在大多数情况下都接近无信息量的值0.25。R2和NRI评分存在同样的缺点,并且缺乏明确的解释[8, 9, 22]。NRI还受到更多批评,主要是因为它可能使无信息的新标志物显得具有预测性,因此建议完全避免使用[15, 23]

这些结果对开发和验证风险评分的研究具有重要意义。对于旨在将人群分为两组的预测工具(例如在评估诊断试验时),AUC和Brier指数等指标可能是很好的性能指标。但对于为个体在特定时间窗口内发生事件赋予特定风险百分比的评分,校准度可能是评估这些预测在临床实践中对个体患者准确性的最有价值的方面。此前已有此观点,但似乎采纳有限[16]。传统上,研究似乎侧重于AUC,而对风险预测模型的校准度评估关注甚少[10]。一项针对PubMed上验证两种用于心血管疾病分层的最新突出风险评分(SCORE2和QRISK3)的论文的搜索(补充表1)识别出44篇摘要[1, 2, 12, 13, 24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64],其中96%报告了AUC(41%作为主要关注点),而只有22%报告了校准度(斜率或预测值/观察值),67%定性评估了校准度,26%完全没有报告校准度。开发新的或改编评分的论文通常将新评分的益处表述为AUC的差异[39, 42,43,44,45,46, 51, 56],例如报告c指数提高了0.03。这清楚地说明了即使在风险分层评分中,AUC也比校准统计量更受重视。AUC的突出地位及其流行的定性标签(差、中等、好或优)可能没有帮助。研究可能报告一系列“优秀”的AUC > 0.85,并提及“满意的校准度”(这是一个高度模糊的术语)[39, 40]。准确报告校准度很重要,因为校准不佳的预测可能具有误导性,并可能导致错误且可能有害的治疗决策[10]。反之,一个在人群中风险呈正态分布的完美校准评分,在AUC上永远不会超过0.67,被贴上“差”的标签,而该评分在评估个体患者的风险百分比方面实际上是完全准确的。开发具有更高AUC的更优评分似乎可取,但如果这些更高的AUC是以更差的校准度为代价实现的,它们最终可能不太适合其临床目的:正确估计个体患者未来事件的风险百分比[17]。对于声称能做出更好决策的说法,专门的措施如净获益(Net Benefit)及其相关的决策曲线可能有所帮助[21]。然而,虽然这与相对于先前决策策略的临床效用有关,但它并未捕捉校准度。

二分化的分析强调了理解风险评分和事件分布的重要性。例如,一个包含年龄的10年死亡率风险评分,在包含年轻人和老年人的人群中评估时,可能会获得优异的AUC和Brier值,这是因为死亡率在老年急剧上升的阈值效应:年轻人风险极低,老年人从某个年龄开始风险极高。这样的评分在19至80岁的人群中可能被评为优秀,但在70至80岁的人群中可能被评为差[1, 12, 13]。R2可以提供关于整体模型拟合的信息,但也对分布效应敏感,使得在不同人群中对评分进行直接比较变得复杂。NRI受到同样的分布问题影响,并且没有明确的解释,因此可能是信息量最少的指标。理解人群中风险评分的分布以及对校准度的评估再次成为评判这些评分的关键。

评估、解释和报告校准度可能因缺乏广泛接受和理解的量化指标而变得复杂。校准图依赖于视觉检查,容易引起主观解释和定性描述。一些研究人员使用Hosmer-Lemeshow检验,但它有许多缺点:它人为地将参与者分组到风险层中,产生的p值无法提供关于校准不当的类型和程度的信息,并且统计功效较低[10, 11]。校准度也可以通过预测发病率与观察发病率的比率来量化。其缺点在于整个评分的预测/观察率可能无法反映评分中与个体患者临床相关子区域的率,而区域性高估和低估在总体上相互抵消。例如,评分可能高估70%以上的风险,低估30%以下的风险,但平均而言是完美的。如果使用特定范围进行治疗决策(例如当患者仅在事件风险>20%时才符合预防治疗条件),这可能会有问题。报告校准截距和斜率及其95%置信区间是更好的替代方案。最后,灵活的校准曲线能够捕捉评分范围内不同区域的偏差,但需要相对较大的数据集,并且缺乏清晰的数值摘要指标。致力于开发能够用一组易于解释的数字准确捕捉校准度的方法的研究努力,以及关于如何报告校准度的明确共识声明,可能有助于研究人员关注校准度。在此之前,建议对风险评分进行评估时报告校准斜率和截距,以及区域性高估和低估[10]。此外,建议报告人群中风险预测评分的分布以及相应的事件发生率分布。

本研究的一个局限性是还可以设想许多不同的分布,但当前的结果应该能很好地说明分布对预测性能指标的重要性,以及哪些类型的分布通常对应哪些类型的评分。为弥补这一点,本研究开发了一个Shiny应用(https://jan-willem-van-dalen.shinyapps.io/app-1/),用户可以定义自己的分布参数(包括伽马、威布尔和完全自定义的分布)来评估相应的预测评分结果。另一个局限性是完美准确风险评分的假设是基于潜在风险在0%到100%之间,而实际的“完美”风险评分只会产生0%和100%的评分。可以认为任何介于0%和100%之间的估计都值得改进,因为事件要么发生要么不发生。然而,这意味着在给定所有相关参数的情况下,多年(例如SCORE和QRISK3的10年)的发病是完全可预测的,而不是一个随机过程。然而,这种区分可能出现在诊断测试或常染色体显性疾病中(这些疾病不可避免且专门导致未来的表型),但在心血管疾病或痴呆等多因素疾病中极不可能发生。最后,必须指出,本文中操作化的连续NRI可能与模型校准度不对应,但当估计风险基于切点进行分类时,切点至少引入了校准度的某些方面[65]。然而,基于先验风险十分位数的分析显示出同样较差的NRI值,这表明当分类成较小组别(例如三分位数、四分位数)时,主要会出现这种情况。

总之,常用的模型性能指标(如AUC、Brier指数、R2和NRI)强烈依赖于风险分布。在许多常见分布中,它们可能无法超过通常被认为是差/中等的数值,只有当风险在分布中被分割为两个极端时,才能超过中等/好的数值。因此,评估个体风险百分比的预测评分的性能,应更少关注这些指标,而更多关注校准度,以确定评分是否准确预测了风险。在报告风险评分验证结果时,研究人员最好报告风险评分分布,并同等强调校准度指标(如区域观察值与预测发病率、校准截距和斜率)与区分度指标。最重要的是,临床医生为了准确估计事件风险以告知个体患者并做出治疗决策,应确保所使用的预测工具具有出色的校准度。

生物通微信公众号
微信
新浪微博


生物通 版权所有