背景:尽管控制中断时间序列(controlled interrupted time series, CITS)常用于评估公共卫生政策,但如何将控制组纳入其统计建模的研究仍较为有限。研究人员旨在比较不同模型设定在各类分段回归模型规格中纳入控制组的统计性能(特别聚焦于CITS与双重差分(difference-in-difference, DiD)设计),并在满足假设条件及假设被违反的条件下进行评估。 方法:基于真实世界数据集,研究人员通过模拟研究比较了四种基于分段回归的模型设定在前-后评估中纳入控制组的统计性能。所比较的模型设定包括:(1)CITS分段回归;(2)DiD分段回归;(3)对控制组与干预组序列之差进行单一中断时间序列(interrupted time series, ITS)分析;以及(4)将控制组作为协变量纳入单一ITS。模型在挑战控制组相关假设(如非平行趋势——违反DiD假设,或组间趋势差异随时间不一致——违反CITS假设)或回归误差相关假设(如异方差性或自相关)的情景下进行检验。研究人员还纳入了包含时间限制三次样条(restricted cubic splines of time)的模型,以缓解假设违反带来的偏倚。此外,研究人员还检验了非平行趋势的检测能力。 结果:标准DiD、CITS以及序列之差ITS在其设计假设得到满足时均表现出最低偏倚。总体而言,将时间样条作为协变量纳入序列之差ITS在假设违反情况下仍实现了最低偏倚和最高覆盖率。这使其成为具有平行、非平行或不一致趋势模式情景下因果推断的有力工具。由于趋势假设的违反往往难以检测,对这类违反具有稳健性的方法极具价值。 结论:将CITS建模为序列之差ITS是将控制序列嵌入模型设定中最为稳健的方法之一。在序列之差ITS中纳入时间样条作为模型协变量,具有降低假设违反(包括平行趋势假设)所致偏倚的潜力,且在假设成立时不会产生负面影响。
中断时间序列(interrupted time series, ITS)是一种前-后评估设计,在干预措施评估中的应用日益广泛,尤其在临床研究和公共卫生领域。ITS与时间序列密切相关,后者是按等间隔时间点排列的数据点序列。时间序列分析旨在描述序列的潜在趋势,而ITS设计的核心关注点在于:在已知时间点实施的干预是否会导致潜在趋势的"中断"。
ITS通常采用分段回归(segmented regression, SR)模型进行分析,该模型允许估计干预前后水平和斜率的变化。SR的适用性并不限于ITS,还可扩展至其他包含控制组的前-后评估设计,其中CITS和DiD是最为常用的两种。在此语境下,控制组是另一组未暴露于干预的时间序列,提供了一种"真实世界"的反事实(counterfactual)。ITS依赖于干预前趋势来估计反事实,尽管该方法被认为具有稳健性,但包含控制组的设计通常被认为更为可靠,因为控制组的真实世界参照可以加强因果推断。
不同设计基于不同假设,这些假设反映在SR的参数化方式上。例如,DiD的核心假设是组间平行趋势(parallel trend),即在无干预的情况下,干预组与控制组的结果水平差异将保持不变。相比之下,CITS允许组间存在不同的干预前趋势,其假设前提是:若无干预发生,控制组的水平和斜率变化将在干预组中同样出现。因此,基于时间序列数据的评估有效性取决于对潜在过程的良好参数化(模型设定)以及控制组的质量。高质量的控制组(即与其模拟干预序列的相似程度)能够减少未测量混杂因素带来的偏倚,因其应包含干预前趋势无法预测的、由同期后干预事件引发的趋势变化。
关于ITS/CITS或DiD的研究设计考量众多,统计模型设定的选择应视具体情境而定,取决于数据点数量、结局变量类型、自相关性、季节性等因素。然而,近期一项范围综述指出,ITS常因未能充分考虑上述特征而采用不恰当的建模方法,可能导致对干预效应大小和性质的偏倚结论。尽管已有关于ITS分析的教程和统计方法比较研究不断增多,但针对如何将控制组纳入时间序列设计的模型比较研究仍然有限,而这些研究对于证据生成具有更强的相关性。
研究人员开展了一项大规模模拟研究,旨在比较SR框架下纳入控制组的各类模型设定的统计性能。研究基于真实数据集构建数据生成过程(data generating process, DGP),模拟了苏格兰警方纳洛酮(naloxone)携带干预试点评估的场景,以格拉斯哥作为干预区域、爱丁堡作为控制区域进行简化参数化。DGP设定为仅包含水平变化的CITS结构,这是对标准DiD设计(通常仅涉及前后单一时点)的扩展。
研究检验了四种主要的控制组纳入方式:(1)CITS分段回归——考虑干预前趋势差异;(2)DiD分段回归——不考虑干预前趋势差异;(3)对控制组与干预组序列之差进行ITS分析——表达仅含水平变化的CITS的常用替代方式;(4)将控制组作为协变量纳入单一ITS。此外,研究还设置了未控制ITS作为比较基线。每种纳入方式均结合不同的回归方法进行检验,包括面板固定效应(panel fixed effect, FE)、Driscoll-Kraay标准误(对一般形式的截面和时间自相关稳健)、可行广义最小二乘法(feasible generalised least squares, FGLS)以及包含时间样条(splines)的模型等。
研究设置了12种情景组合(3种误差方差情景×2种平行趋势情景×2种误差自相关情景),并在24至312个时间点的不同样本量下进行300次模拟。基准情景中,DGP反映无潜在趋势的DiD结构;挑战平行趋势假设时,引入随时间变化的未观测效应,导致组间出现差异性的干预前趋势;挑战误差假设时,分别引入异方差性和自相关性(ρ=0.7)。此外,研究还进行了敏感性分析,考察控制组呈现不规则非线性非平行趋势的情景。
在模型性能评估方面,研究采用偏倚(绝对值)、平均模型标准误与经验标准误之比(avgModSE/EmpSE)以及覆盖率作为主要指标。偏倚反映参数期望值与实际值之间的差异;avgModSE/EmpSE衡量模型估计的标准误与观察到的估计量标准差之间的相似程度;覆盖率指置信区间包含真实参数值的概率。
研究结果显示,在独立误差情景下,当模型正确反映DGP时,增加观测数量可降低偏倚。在平行趋势和同质方差条件下,CITS、DiD和序列之差ITS均表现出低偏倚(最大0.07,相当于效应量的3.5%)。在非平行趋势条件下,CITS和包含时间成分的序列之差ITS仍保持最可靠的设计表现,而标准DiD估计模型的偏倚显著增高。异方差性总体上增加了所有模型的偏倚。在非平行情景中,包含时间成分(线性或样条)的CITS和序列之差ITS为首选设计。自相关误差对偏倚影响不大,偏好模型的排序与独立误差情景基本一致。
在覆盖率方面,平行趋势条件下所有符合DGP的模型均具有高覆盖率,DiD和序列之差ITS规格(尤其不含样条时)在样本量最大时超过96%。非平行条件下,包含时间成分(线性或样条)的CITS和序列之差ITS为最优规格。异方差情景中,CITS样条模型和所有序列之差ITS规格(无论时间协变量选择如何)在平行情景下表现最佳,平均覆盖率超过94%;非平行情景中,CITS和序列之差ITS样条模型优于所有替代规格。
在检测非平行趋势方面,同质方差和非平行设定下,小样本(n=24)和大样本(n=312)中拒绝平行趋势原假设的比例分别为80%和95%;但在非平行且异方差设定下(意味着DGP中更高的总体方差),该比例显著降低至小样本24%−25%、大样本65%−68%,表明趋势假设的违反在实践中往往难以被检测。
在不规则非线性非平行趋势的敏感性分析中,包含时间样条的序列之差ITS展现出最优的模型设定。该方法在大样本(n>56)中达到低偏倚(n=312时0.0117,仅相当于真实效应的0.6%),且在所有样本量下保持覆盖率≥82%;添加时间协变量后虽因方差过估导致置信区间变宽、覆盖率达95%,但确保了稳健性。相比之下,CITS模型通常表现出超过1.0的偏倚(超过真实效应的50%)。
在讨论部分,研究人员指出SR是估计CITS和DiD设计以进行因果推断的最常用统计模型,但这些设计的假设往往未经检验,尽管在现实世界中很可能被违反。研究发现,当设计和估计方法正确反映基准DGP时,其性能良好。某些设计或估计方法虽未严格匹配DGP,但在特定情境下(如在平行趋势情景中包含时间成分)仍可能表现优异,甚至超过正确匹配的规格。
纳入时间成分的优势在处理非平行趋势时尤为明显,尤其在高方差情境中。标准DiD模型即使包含时间成分也表现不佳,而CITS和序列之差ITS等明确匹配这些情境的设计则提供了最低偏倚和最高覆盖率。时间参数化方式(线性或非线性样条)在面临高方差的非平行情境中具有相关性,平均而言,CITS和序列之差ITS中的样条在大多数样本量下表现更优。在挑战CITS和DiD趋势假设的替代情景中,包含时间样条的规格同样受到青睐。
序列之差ITS较基于面板的规格更为简洁。在高方差情景中,其平均表现优于CITS(平行和非平行趋势下)和DiD(平行趋势下),性能仅与使用样条的CITS相当。这反映了将分析简化为单一差分序列可以降低误差结构复杂性所带来的优势。当干预组和控制组序列高度正相关时(实际情况通常如此,因为控制组通常被选择与干预组模式尽可能匹配),差分的总体方差将低于方差之和,从而通过提高精确度来减少有限样本偏倚。在大样本高方差情境中,CITS设计中的样条可通过允许更灵活的基线趋势来缓解噪声对估计的影响。在小样本中,序列之差ITS还可避免因建模组内和组间依赖关系而带来的复杂性。
灵活设计与灵活时间协变量(样条)的结合,在CITS和DiD假设均被违反的情境中具有真正优势。在控制组呈现随时间变化趋势的非平行趋势情景中,包含样条的序列之差ITS是唯一在大样本中实现低偏倚、在所有样本量中实现高覆盖率的方法。鉴于平行趋势假设的违反在异质方差/高方差或小样本情境中经常无法被检测,优先预防这些违反效应的影响是一种具有价值的权衡策略。尽管在理想条件下可能导致效率或精确度的边际损失,但这种策略可作为"保险"手段,减少设定误差的偏倚,并提供关于处理效应的信息(同时对效应的确切大小保持谨慎态度,尤其在小样本中)。
研究人员进一步比较了CITS和序列之差ITS。总体而言,序列之差ITS通常优于CITS,因为后者依赖于脆弱且难以验证的假设。在不规则斜率趋势的情境中,包含额外系数的CITS模型灵活性较低,即使纳入样条也可能产生偏倚。DiD假设至少部分可检验,而CITS假设(允许非平行趋势但仅通过恒定发散斜率)则难以检验(在现实世界中可能罕见)。序列之差分析仅关注水平变化,为两种设计提供了统一的参数化重表达,规格更为简洁。增加时间样条可进一步提高灵活性,避免了在面板框架中分别建模两个序列的复杂性。
关于替代方法,将控制组作为协变量纳入的方式虽然看似简单直观且有时被采用,但即使在理想的高斯-马尔可夫条件下也并非有效的最小化偏倚策略。此类模型无法正确处理组间比较,而是聚焦于处理序列本身;当控制组具有更高方差时,直接将该噪声纳入独立协变量会导致偏倚增加。
针对实践启示,研究人员提出:第一,使用序列之差的ITS并纳入时间样条通常产生低偏倚和高覆盖率,使其成为平行或非平行趋势模型中因果推断的有力工具;当所有假设均被违反时,在大样本中它是唯一可能同时实现高覆盖率和低偏倚的模型。第二,平行趋势的违反往往统计上不可检测——后干预期若无干预则趋势将平行的假设不可检验,且在高方差或小样本情景中非平行趋势常因统计效能不足而无法检测。因此,预防性地使用对非平行设定具有潜在稳健性的方法可作为安全策略。第三,尽管严重误差相关不影响偏倚,但会影响方差估计(进而影响覆盖率),序列之差ITS虽不会保留或增加原始误差相关,但可能影响其他误差特征,需要严格分析所得误差模式,必要时采用对异方差和自相关均稳健的估计量(如Newey-West)。第四,当对平行设定有高度信心且同时存在异方差和自相关误差时,采用DK或FGLS误差修正的受控SR可提供最稳健和高效的估计;非平行设定中,含样条的差分最为稳健,但可能受益于异方差和自相关稳健估计量。
研究局限性在于:DGP基于水平变化而非计数变量;未生成非线性DGP并拟合线性和非线性模型;节点数量和放置的选择可能影响结果,尤其非平行模式中理论驱动的节点放置(如干预点)可能产生"确认偏倚";仅探索了一个干预和一个控制组的框架;300次模拟在特定情况下可能产生偏倚峰值(如某些方法在特定样本量处的相对峰值);DGP仅包含水平变化,虽在实际中常被偏好以避免过拟合,但在同时存在斜率变化的情境中,水平仅规格估计的是观测期内干预组的平均处理效应而非期末效应。
研究结论部分指出:CITS以及干预组与控制组序列之差的ITS是在仅有两个可用序列时将控制组嵌入分段回归的最稳健方法。关于序列之差ITS,将模拟时间-结局曲线关系的曲性成分(如样条)等附加成分整合到标准分段回归中,可能降低通常未被察觉的假设违反(如平行趋势随时间变化)所致偏倚,且当此类假设成立时不会产生负面影响。
打赏