基于多队列稀疏功能数据的生存联合模型在阿尔茨海默病研究中的应用与意义

时间:2026年2月15日
来源:Statistics in Medicine

编辑推荐:

这篇综述系统性地阐述了为阿尔茨海默病(AD)多队列研究开发的整合性联合模型,它创新性地将多元稀疏功能性数据(MFMM)与生存分析相结合,以应对研究设计中系统性数据缺失的挑战。该模型通过提取共享的疾病进展轨迹,并将其与至事件发生时间数据简洁关联,在灵活性与可解释性间取得平衡,并利用惩罚样条和高效EM算法进行估计。其应用于三个AD队列(ADNI、NACC、ROSMAP),不仅验证了模型在捕捉疾病轨迹和处理队列间异质性方面的能力,也为推进AD进展理解和临床决策支持提供了有力工具。

广告
   X   

1 引言
阿尔茨海默病(AD)是一种进展性脑部疾病,严重影响认知和行为功能。在美国,AD是65岁及以上人群的第五大死因。随着AD患病率增加,大型纵向研究如阿尔茨海默病神经影像学倡议(ADNI)、国家阿尔茨海默病协调中心(NACC)以及宗教秩序研究和拉什记忆与衰老项目(ROSMAP)等得以建立,它们收集了包括神经心理学和行为测量在内的多种纵向数据以监测疾病轨迹。然而,多队列分析在带来样本量和统计效力增加等机遇的同时,也面临着基线特征、研究设计和数据收集方案异质性带来的整合挑战,尤其是在某些纵向结局存在系统性缺失的情况下。
传统的联合模型(JMs)广泛用于分析纵向和生存数据,但其参数化假设在处理复杂的非线性轨迹时可能过于严格。将纵向结局建模为稀疏功能数据则可以利用灵活的非参数方法来捕捉复杂的主体特异性模式。生存数据与稀疏功能数据的联合建模被称为功能联合模型。尽管FJMs已取得进展,但其模型估计仍是一大挑战,尤其是在处理多队列研究中的系统性缺失和队列间异质性时。
为此,本文开发了一种用于多队列多元稀疏功能数据和生存数据的整合性FJM。首先,为适应设计缺失的结局并利用队列间的共享信息,我们像多元功能混合模型那样,将纵向结局分解为共享的和结局特异性的疾病轨迹,在模型灵活性与可解释性之间取得平衡。我们假设跨队列的变异模式在建模共享和结局特异性疾病轨迹时是一致的。同时,通过在纵向子模型中纳入队列特异性均值函数和在生存子模型中纳入队列特异性回归系数来应对队列特异性变异。模型估计方面,我们开发了一种高效且计算可行的期望最大化算法,并采用惩罚样条来估计非参数平滑函数,以减少过度拟合风险并加速EM收敛。
2 多队列功能联合模型
2.1 数据结构与符号
假设有K个队列,N个受试者。映射c(i)指示受试者i所属队列。令J表示纵向结局总数,Jc表示队列c中观测到的结局集合。对于队列c中的受试者i及其结局j,令Yij(tijk)表示在时间tijk的第k次观测。生存结局(从基线到AD痴呆发病的时间)记为Ti,当存在右删失时,我们观测到Xi= min(Ti, Ci)和事件指示符δi
2.2 用于多队列纵向数据的多元功能混合模型
我们将多个纵向结局建模为多元功能数据,并扩展了MFMM以适用于多队列情景。模型表述为:
Yij(t) = μcj(t) + βjUi(t) + Vij(t) + εij(t)
其中,μcj(t)是队列c中结局j的固定均值函数,Ui(t)是捕获共享变异模式的随机过程,Vij(t)是结局特异性偏差,βj是结局特异性缩放参数,εij(t)是测量误差。共享潜在轨迹Ui(t)和结局特异性过程Vij(t)被建模为高斯过程。通过功能主成分分析,它们可以用有限数量的功能主成分(FPC)表示。该模型通过队列特异性均值函数建模异质性,并通过施加跨结局的共享变异模式来整合队列,即使每个队列收集不同的纵向结局集,也能实现可比性。
2.3 纵向与生存数据的联合模型
对于受试者i的风险函数,我们考虑以下队列特异性比例风险模型:
λi(t | Zi, ξi) = λ0c(t) exp{γcTZi+ αcTξi}
其中,λ0c(t)是队列c的基线风险函数,Zi是基线协变量向量,γc是其系数向量,ξi是与共享潜在轨迹对应的主成分得分向量,αc是其关联的系数向量。该模型通过共享随机得分整合纵向信息,简约且适用于跨队列。
2.4 联合模型的似然
θ为所有参数的集合。加权边际对数似然通过对随机效应的分布积分得到。考虑到队列大小的差异,我们采用加权对数似然,指定最小的队列(队列1)为参照队列。
3 通过蒙特卡洛EM进行模型估计
3.1 平滑函数的样条近似
我们采用样条近似来灵活且高效地估计MFMM模型中的平滑均值和协方差函数。均值函数μcj(t)建模为B(t)Tθcj。共享和结局特异性协方差函数的特征函数也通过B样条基进行近似。
3.2 E步
EM算法将FPC得分ξiζij视为潜在(缺失)数据。E步计算给定观测数据和当前参数估计值的加权条件对数似然的期望值。我们使用蒙特卡洛积分来高效计算该期望,从条件分布中抽取样本进行近似。
3.3 M步
M步通过最大化E步得到的函数来更新参数估计。纵向参数通过最小化带惩罚的加权最小二乘问题来迭代估计。生存参数中,基线风险函数通过加权事件与期望贡献的比率来估计,协变量和潜在轨迹的效应系数通过Newton-Raphson算法更新。特征值通过对角矩阵的加权负对数似然最小化来估计。
4 模型选择
惩罚样条中平滑参数的选择在EM算法的每次迭代中使用广义交叉验证(GCV)确定。共享和结局特异性潜在过程的主成分数量LξLζ是关键调谐参数,使用贝叶斯信息准则(BIC)进行选择。BIC定义为-2ℓ(θ) + log(N) · df,其中df为模型的自由度。
5 数据应用
我们将提出的多队列FJM应用于三个AD队列的数据,整合纵向结局并通过Cox回归模型将其与生存结局关联。纳入的基线协变量包括年龄、性别、教育年限和APOE ε4等位基因数量。使用BIC标准,我们为共享协方差结构选择了四个主成分(Lξ=4),为结局特异性协方差结构选择了三个主成分(Lζ=3)。估计的缩放系数符号符合预期:MMSE、WMSLM、RAVLT和SDMT值越低,CDR-SB、ADAS、FAQ和TRAILA值越高,表明AD进展。
图3比较了多队列FJM、单队列FJM和参数化多元联合模型(MJM)估计的纵向结局平均轨迹。与假设线性趋势的MJM不同,FJM和多队列FJM都能有效捕捉非线性轨迹。多队列FJM在WMSLM、RAVLT和TRAILA中捕捉到更陡峭的下降或上升,反映了部分AD相关指标的更快恶化。此外,明显的队列特异性差异也很显著,例如ROSMAP队列患者表现出比ADNI和NACC更快的进展。
表2展示了多队列FJM估计的Cox回归系数。APOE4在所有队列中都是一个显著的风险因素。年龄在ADNI和NACC中显著,但在ROSMAP中不显著。教育年限在NACC和ROSMAP中具有显著的保护作用,但在ADNI中不显著。共享进展得分(ξi)是AD风险的关键预测因子,大多数得分与AD诊断时间显著相关。
模型选择评估表明,队列特异性Cox系数是持续需要的,但关于均值函数,BIC倾向于跨队列共享均值函数(偏好更简单模型),而AIC支持队列特异性均值函数(优先考虑灵活性)。这种差异可能源于跨队列结局重叠有限。
6 模拟研究
6.1 模拟设置
我们模拟了与AD队列类似的数据,以评估多队列FJM的性能。生成了3个队列的纵向数据,每个队列包含与真实数据相同的结局集,并具有从应用研究估计中得出的队列特异性均值函数、缩放参数和误差方差。共享和结局特异性随机得分及测量误差均从正态分布中生成。事件数据使用Cox回归模型生成,并包含来自数据应用的基线协变量。
6.2 模拟结果
使用真实的主成分数量拟合多队列FJM。图4显示了100次重复实验中估计的均值函数,估计值与真实值紧密对齐,表明估计准确。对特征函数和其他模型参数的评估也证实了模型良好的性能。使用AIC和BIC的模型选择方法表现出高准确率,BIC的正确选择率为1.00,AIC为0.98,突显了BIC在识别模型复杂性方面的稳健性。
6.3 与回归样条估计的比较
我们将采用惩罚样条的EM实现与采用回归样条的EM实现进行了比较。通过相对积分平方误差(RISE)量化纵向子模型中均值函数和协方差函数的估计精度。图5显示,对于均值函数和共享协方差,惩罚样条EM算法产生的RISE值 uniformly低于回归样条EM。对于结局特异性协方差,两种方法在重复实验中显示出相当的准确性。在计算时间上,惩罚样条EM的中位运行时间为2.14小时,而回归样条EM需要3.72小时。惩罚样条EM在相同模拟设置下实现了更好或相当的估计精度和更快的收敛速度。
7 讨论
我们提出了一种MFMM的新扩展,用于联合分析来自多个队列的纵向结局。该方法通过利用从MFMM中提取的共享变异模式,实现了连接纵向和生存数据的简约而灵活的框架。应用于三个AD队列凸显了该模型在揭示共享和队列特异性疾病进展模式方面的效用。通过识别队列间疾病轨迹的差异,例如ROSMAP相对于ADNI和NACC进展更快,该模型揭示了单队列分析无法获得的见解。
对于提出的功能联合模型,我们开发了一种计算可行的算法,有效结合了EM和惩罚样条。EM的迭代性质与惩罚样条平滑参数的局部选择很好地匹配,克服了功能联合模型的计算复杂性。我们算法在迭代算法中应用惩罚样条的成功,无疑将鼓励其进一步应用。
尽管有其优势,但所提出的模型也存在局限性。目前,纵向和生存子模型通过主成分得分进行参数化链接。虽然这种方法确保了模型的简洁性,但可能无法完全捕捉纵向结局与生存数据之间更复杂的关联。未来的工作可以纳入非参数链接机制以增强灵活性。另一个局限是依赖于单一的共享变异模式来表示纵向结局间的共性。虽然对于中等数量的结局足够,但在分析具有多样化依赖性的大量结局集时可能变得限制。最近的潜在功能因子模型允许多个共享变异模式,为扩展MFMM以处理此类复杂性提供了一个有前景的方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有