背景:在临床预测模型开发中,过拟合会导致新数据上的预测风险过于极端。全局收缩因子(S)通过将预测值向均值“收缩”来缓解此问题,其中最优收缩因子(Sopt)能使模型在目标人群中的校准斜率(calibration slope)为1。实践中,Sopt通常通过启发式公式(SVH)或自助法(Sboot)估计。然而,现有证据表明这些估计量在小样本下变异性高,且SVH作为样本量标准(如Riley准则)的基础是否可靠尚不明确。
方法:研究人员通过大规模模拟研究,在多样化的样本量(ndev)和设定下,比较了SVH和Sboot估计Sopt的平均性能(偏差)。同时评估了SVH偏差对样本量准则的影响,并与Pavlou调整方法进行了对比。
结果:研究发现,在大多数设定下,SVH是Sopt的近似无偏估计量,其偏差通常小于0.01。相比之下,Sboot在预测性能较低或样本量较小时表现出更大的变异性。基于SVH的样本量准则在控制过fitting方面表现良好,Pavlou调整仅在高维设定下略有优势。
结论:SVH在广泛条件下是Sopt的可靠估计量,支持其在模型开发和样本量规划中的继续使用。
论文解读
研究背景与问题
临床预测模型(clinical prediction model)的开发常面临过拟合(overfitting)风险,导致模型在新数据上校准不佳(预测风险过于极端)。为应对此问题,收缩(shrinkage)技术被广泛应用,其核心是寻找最优全局收缩因子Sopt,使得模型在目标人群中的校准斜率(calibration slope)等于1。实践中,Sopt未知,需通过估计量获取。其中,van Houwelingen启发式收缩因子(SVH= 1 - (p / LR),其中p为预测变量数,LR为似然比统计量)因计算简便被广泛用于模型 optimism 调整及样本量准则(如Riley准则)。然而,既往研究(van Calster, Riley等)指出,现有收缩估计量在小样本下变异性高,且SVH作为样本量规划基础的可靠性受到质疑。因此,亟需系统评估SVH与Sopt的一致性,并明确其在样本量准则中的适用性。
研究方法概述
本研究发表于《Diagnostic and Prognostic Research》,采用两大模拟研究框架:
- 1.
性能对比模拟:基于ADEMP结构,随机生成30,000个场景(涵盖不同样本量ndev、预测变量数Q、事件比例、协方差结构),每个场景重复250次。通过生成百万级验证队列计算Sopt真值,对比SVH与Sboot的偏差与变异性。
- 2.
样本量准则评估:基于Riley样本量公式(以SVH≥0.9为目标)及Pavlou模拟调整方法,评估在实际数据生成机制下,采用不同准则开发模型的校准性能。
研究结果
模拟研究1:SVH与Sboot的性能对比
- •
总体偏差:在绝大多数设定下,SVH是Sopt的近似无偏估计量,平均偏差(mean difference)通常小于0.01。其偏差主要受样本量(ndev)和模型总体判别性能(R²CS_pop)影响,在ndev较小或R²较低时略高,但仍在可接受范围。
- •
与自助法比较:Sboot在总体偏差方面与SVH相当,但在模型性能较低或样本量较小时,Sboot表现出更高的变异性(variance),且计算成本显著高于SVH。
- •
极端场景:仅在样本量极小(ndev< 100)且预测变量极多(high-dimensional)的极端设定下,SVH才表现出明显偏差,但此类场景已超出常规模型开发推荐范围。
模拟研究2:样本量准则的可靠性
- •
Riley准则有效性:基于SVH≥0.9目标的Riley样本量准则,在实际应用中能有效控制过拟合,使开发模型的平均校准斜率接近1,表现稳健。
- •
Pavlou调整局限性:对比Pavlou提出的模拟调整方法,Riley准则在大多数非极端设定下表现相当或更优。Pavlou调整仅在极高维(变量数接近样本量)设定下略有优势,但优势幅度有限,且依赖额外的模拟复杂度。
讨论与结论
本研究通过大规模模拟证实,van Houwelingen启发式收缩因子(SVH)在广泛的样本量和模型设定下,是最优收缩因子(Sopt)的可靠且近似无偏的估计量。其性能不劣于计算成本更高的自助法(Sboot)。因此,SVH继续作为模型 optimism 调整和样本量规划(如Riley准则)的标准方法是合理的。对于常规临床预测模型开发,无需转向更复杂的估计方法。研究建议在样本量规划时,仍以SVH≥0.9为目标,以确保模型在开发阶段即具备良好的校准潜力。