基于淀粉样蛋白PET与MRI的多中心机器学习研究:预测临床前阿尔茨海默病的未来认知障碍

时间:2026年4月24日
来源:Neurobiology of Aging

编辑推荐:

为提升阿尔茨海默病(AD)疾病修饰疗法临床试验的招募效能与统计效力,本研究聚焦于临床前AD人群,利用淀粉样蛋白PET与MRI提取的影像特征,训练了支持向量机(SVM)分类器,成功预测了认知未受损个体在1-5年时间窗内进展为轻度认知障碍或痴呆的风险。该模型在多中心和不同示踪剂的外部验证中表现出良好的泛化能力,并在A4试验的回顾性队列富集分析中展现了提升检测治疗效应的潜力,为未来针对无症状人群的临床试验提供了有力的分层工具。

广告
   X   

阿尔茨海默病(Alzheimer's Disease, AD)是一种进行性神经退行性疾病,其特征是大脑中淀粉样蛋白-β斑块和tau蛋白神经原纤维缠结的积累,最终导致神经元死亡和认知功能缺陷。当前的AD发病机制模型表明,这些病理变化的积累通常在临床症状出现前数年就已开始。因此,针对这些病理改变、旨在延缓或阻止临床症状进展的疾病修饰疗法(disease-modifying therapies)成为AD治疗临床试验的重点。然而,迄今为止,仅有少数疗法获批,大部分试验未能显示出显著的治疗效果。一个可能的原因是,招募的参与者可能处于疾病过晚期,治疗已难以有效改变其进程。以往试验主要招募已表现出客观认知障碍的个体。作为应对,新兴的试验已转向靶向临床前AD人群,即患者表现出异常脑淀粉样蛋白病变但无认知障碍迹象。此外,失败也可能归因于疾病表型表达的高度异质性,特别是在认知衰退速率上的差异,这可能导致对治疗的不同反应,从而影响治疗效果的评估。
为了缓解这一问题,在AD临床试验中常采用分层模型来区分快速认知衰退者与缓慢或不衰退者。这些模型通过识别和选择性招募最有可能从疾病修饰疗法中获益的候选者来实现队列富集,以增加观察到潜在治疗效果的可能性。此外,将快速衰退者和缓慢衰退者偏倚分配至对照组和治疗组可能导致对潜在治疗效应的高估或低估。对临床试验参与者进行适当分层,确保快速与缓慢衰退者在各组中均衡分配,有助于减少治疗效应评估的不确定性,并降低试验所需的样本量和成本。以往的试验曾使用神经心理测试以及正电子发射断层扫描(Positron Emission Tomography, PET)定量淀粉样蛋白和tau蛋白测量等单一风险评估来对参与者进行分层。然而,近期证据表明,基于机器学习(Machine Learning, ML)构建的数据驱动分层模型,在提升临床试验操作效能方面可以超越单一风险因素分层。通过利用影像、遗传学和认知评估等多模态信息,ML模型可以学习其中的复杂模式,以提供更准确的分层。这些分层可用于指导更优化的队列富集,从而提高检测假设治疗效应的效力、减少随机分配偏倚,并减少观察到治疗效果所需的样本量。在常用于分层的多模态数据中,PET和磁共振成像(Magnetic Resonance Imaging, MRI)等医学影像数据对于探查大脑中核心及相关AD病理的拓扑分布特别有用,这些已被证明能高度区分认知衰退者与非衰退者。
尽管在开发此类应用的ML模型方面已取得进展,但先前文献主要集中于已表现出轻度认知障碍(Mild Cognitive Impairment, MCI)形式认知缺陷的个体,且许多研究仅使用从结构MRI中提取的特征进行训练。已有研究致力于为认知未受损(Cognitively Unimpaired, CU)人群开发也包含淀粉样蛋白PET的模型,但大多要么施加了单一的进展时间窗,要么未确保其CU队列中存在淀粉样蛋白病理。此外,由于试验通常涉及大型机构联盟,每个机构使用不同的数据采集协议和扫描仪型号,这会在收集的数据中引入特定地点的偏倚,可能负面影响到模型在样本外数据上的泛化能力。再者,不同PET放射性示踪剂在药代动力学和结合特性上的差异,导致淀粉样蛋白PET定量测量存在显著偏倚。因此,需要对ML模型在外部地点和不同淀粉样蛋白PET示踪剂上的泛化能力进行严格评估。
受这些空白启发,本研究旨在开发并评估ML分类器,以预测无症状临床前AD患者未来的认知衰退。本研究训练了支持向量机(Support Vector Machine, SVM)二元分类器,使用从淀粉样蛋白PET和结构MRI中提取的区域影像特征,对个体是否会在1至5年的多个随访时间内出现认知缺陷进行二元分类。研究从七个独立地点和两种淀粉样蛋白PET示踪剂获取数据,并通过留一地点交叉验证和留一示踪剂交叉验证来评估训练模型的样本外性能。最后,为了衡量在临床试验环境中应用这些模型的益处,本研究利用抗淀粉样蛋白治疗无症状阿尔茨海默病(Anti-Amyloid Treatment in Asymptomatic Alzheimer’s, A4)研究的数据,估算了在基于模型预测进行回顾性队列富集后,检测治疗效应的统计效能的变化。
本研究为开展研究,主要运用了以下关键技术方法:研究从A4研究、阿尔茨海默病神经影像学倡议(Alzheimer’s Disease Neuroimaging Initiative, ADNI)、哈佛老龄大脑研究(Harvard Aging Brain Study, HABS)、梅奥诊所衰老研究(Mayo Clinic Study of Aging, MCSA)、开放存取影像系列3(Open Access Series of Imaging Studies 3, OASIS)和临床前阿尔茨海默病联盟(Preclinical Alzheimer’s Disease Consortium, PAC)等多个独立研究和联盟中获取了参与者的数据。所有参与者均提供了知情同意。研究选取了所有可用的[18F]-florbetapir(FBP)或[11C]-Pittsburgh-compound-B(PiB)淀粉样蛋白PET成像的参与者,并将其限制为淀粉样蛋白阳性(定义为平均皮层淀粉样蛋白PET信号高于阈值)。所有扫描均与PET采集日期一年内的结构T1加权MRI扫描相匹配。基线年龄、性别和APOE4携带状态被选为额外的预测因子。临床痴呆评定量表(Clinical Dementia Rating, CDR)被用作整体痴呆严重程度的衡量标准。参与者被标记为稳定者(至少在淀粉样蛋白PET后五年内保持CDR=0)或进展者(在1至5年不等的随访时间内转为CDR>0)。在影像处理方面,所有扫描均经历了标准的PET-MRI处理流程,包括将MRI分割为感兴趣区域(Region of Interest, ROI),以及从淀粉样蛋白PET中推导区域标准化摄取值比率(Standardized Uptake Value Ratio, SUVR)。具体使用了Multi-atlas region Segmentation utilizing Ensembles of registration algorithms and parameters(MUSE)方法将T1加权MRI分割为145个皮层和皮层下ROI,并提取了125个灰质和脑室ROI的体积(经颅内总体积标准化)作为模型的体积输入特征。对于PET扫描,动态扫描的帧在注射示踪剂后的特定时间窗内进行选择、重新对齐以消除患者运动、平均化,并共配准到T1图像。通过应用高斯平滑核进行迭代平滑以达到目标分辨率,然后将PET图像转换为SUVR图像(除以左右小脑灰质区域的平均信号),并计算每个ROI的区域SUVR值。在模型开发与评估方面,研究训练了具有线性核的SVM二元分类器,使用基线淀粉样蛋白PET SUVR、体积和非影像特征来预测个体是否会进展为CDR>0。为应对类别频率不平衡,采用了类别平衡加权。独立训练了五个不同的进展时间模型(预测窗口为1至5年)。通过留一地点和留一示踪剂交叉验证框架评估模型性能。此外,还进行了Centiloid(一种跨示踪剂标准化淀粉样蛋白PET测量的方法)敏感性分析,以解决因包含多种示踪剂而导致的淀粉样蛋白PET SUVR偏倚。通过训练嵌套模型(使用减少的特征子集)和计算协方差校正的线性SVM权重来评估特征重要性。最后,利用A4临床试验数据集进行了回顾性分析,以验证分类器并评估其用于临床试验队列富集的潜在益处。
3.1. 队列特征
表1总结了各地点和汇总数据的队列特征。在所有地点中,进展者平均年龄(75.9 ± 6.4岁)高于稳定者(72.4 ± 5.6岁,p < 0.001),而在性别比例和APOE4携带者比例上,进展者与稳定者相似(p > 0.05)。进展者平均进展时间为2.4 ± 1.3年,稳定者平均保持CU状态7.1 ± 1.6年。稳定者使用FBP与PiB示踪剂的比例大致相等,而进展者更常使用FBP(60%)。在个体地点内,仅A4队列的年龄在报告的所有人口统计学特征中显示出稳定者与进展者之间的统计学显著差异(p < 0.001)。
3.2. 模型评估
通过留一地点交叉验证评估了SVM分类器对外部地点的泛化能力。分类器在大多数留出地点和进展时间上泛化良好,受试者工作特征曲线下面积(Receiver Operating Characteristic Area-Under-the-Curve, ROC-AUC)达到0.66或更高,大部分超过0.75。例外是HABS,其ROC-AUC低于0.50。通过组合所有地点上各模型在其相应留出地点的样本外预测,并与所有地点的组合真实标签进行比较,计算了汇总二元分类指标。分类器的汇总准确率>0.69,平衡准确率>0.58。分类器特异性高(>0.74),且阴性预测值高(>0.74)。虽然模型也实现了相对较高的敏感性、阳性预测值和F1分数,但这些指标对进展时间特别敏感。较短的进展时间导致较差的敏感性、阳性预测值和F1分数,可能是因为分类器训练的阳性病例较少,且容易对对照病例过拟合。在较高进展时间上训练的分类器在敏感性/阳性预测值与特异性/阴性预测值之间取得了更好的平衡。
此外,还进行了留一示踪剂验证以评估SVM分类器对未见示踪剂的泛化能力。分类器在所有进展时间上对两种留出示踪剂均实现了>0.72的ROC-AUC。然而,在PiB上训练并在FBP上测试的模型敏感性低而特异性高,而在FBP上训练并在PiB上测试的模型则呈现相反情况。这可能反映了FBP和PiB示踪剂之间区域SUVR的偏倚。为解决此问题,使用Centiloid标准化后的区域淀粉样蛋白PET SUVR重新训练了分类器。标准化后,模型对两种留出示踪剂在敏感性和特异性之间取得了更好的平衡:在FBP上测试时敏感性增加,在PiB上测试时特异性增加。同时,所有进展时间的汇总平衡准确率也有所提高。在某些情况下ROC-AUC略有下降,但通过DeLong检验,这些变化均无统计学显著性(p > 0.05)。
3.3. 特征重要性
嵌套模型在各留出地点上的性能显示,当从输入集中省略淀粉样蛋白PET特征时,观察到ROC-AUC下降高达0.223,特别是在3年或更长时间窗口(A4除外),尽管这些差异无统计学显著性(p > 0.05)。当省略MRI体积特征时,在留出地点间观察到不一致的趋势。对于A4和OASIS等地,观察到ROC-AUC略有下降,而对于ADNI和HABS等其他地点,则观察到略有上升。所有差异均无统计学显著性(p > 0.05)。在许多情况下,省略淀粉样蛋白特征时模型泛化能力的降低程度大于省略体积特征时,尤其是在后期时间窗口,表明淀粉样蛋白PET在这些任务中具有更高的相对重要性。在除BLSA和HABS外的所有留出地点,仅使用非影像特征的模型表现 consistently 差于整合两种影像学特征的模型,其中在MCSA上一年模型的ROC-AUC差异具有统计学显著性(p < 0.05)。最后,省略非影像特征导致与完整模型几乎相同的性能。
所有训练模型中各输入特征的平均重要性可视化显示。对于淀粉样蛋白SUVR特征,在整个皮层观察到对预测进展者类别的广泛贡献,其中双侧颞下回和颞中回显示出最强的平均重要性,其次是颞中回、额上回和枕中回。相比之下,皮层下淀粉样蛋白SUVR的重要性普遍低得多。对于体积特征,双侧侧脑室下角体积在所有特征(包括淀粉样蛋白SUVR和非影像变量)中具有最高的特征重要性绝对值。其次是侧脑室、杏仁核和海马体体积。脑室体积均具有正的重要性值,而所有其他体积特征具有负的重要性。在三个非影像特征中,基线年龄与进展者类别的关联最强。性别和APOE4携带状态均未显示出强关联。
还通过线性回归估计了特征重要性绝对值随进展时间的变化率。对于淀粉样蛋白SUVR特征,眶额、颞叶和枕叶皮层的区域重要性随进展时间窗扩大而增加的速率最高。在体积区域中,右侧侧脑室下角、右侧额叶岛盖和双侧后扣带回的增加速率最高。年龄具有适中的增加速率,而性别和APOE4没有显示出实质性变化。与体积特征或非影像特征相比,淀粉样蛋白SUVR特征在特征重要性上显示出大得多的变化率,表明随着进展时间窗扩大以捕捉更早期的疾病进展,它们对模型输出的影响变得更加显著。这也与嵌套模型分析中观察到的趋势一致。
3.4. A4试验分析
在A4临床试验数据集上进行了回顾性分析,以进一步验证SVM分类器并展示其用于临床试验队列富集的潜在益处。表3总结了未富集的A4队列以及使用五个进展时间模型进行回顾性富集的队列的特征。在安慰剂和Solanezumab组中,未富集队列与富集队列在基线年龄、基线皮层FBP SUVR(Solanezumab组的一年进展者除外)和基线PACC(安慰剂组的三年进展者除外)方面均观察到显著差异(p < 0.05)。与未富集队列相比,两个试验组的富集队列中女性百分比均较低;这种差异仅对一年进展者显著(p < 0.01)。在APOE4携带状态或年化PACC变化率方面未观察到显著差异(p > 0.05)。
为验证SVM分类器是否能准确区分认知稳定者与衰退者,对预测的稳定者和进展者的纵向PACC分数拟合了自然三次样条模型,并估算了240周随访点的模型调整后平均PACC分数。在除Solanezumab组的一年进展者模型外的所有情况下,预测的稳定者在240周时的模型调整后PACC分数平均估计值均显著高于预测的进展者(p < 0.01)。当使用五年模型(大致与A4试验安慰剂对照期的时间一致)时,Solanezumab组的预测进展者的平均调整后PACC分数为-3.92 ± 0.57,显著差于预测稳定者的-0.84 ± 0.26(p < 0.001)。类似地,在安慰剂组中,预测进展者的平均调整后PACC分数为-3.39 ± 0.43,而预测稳定者为-0.96 ± 0.22(p < 0.001)。
为评估通过训练好的分类器进行队列富集是否提高了我们检测治疗效应的能力,在回顾性富集后测试了主要终点(PACC)和次要终点(FBP皮层SUVR)的显著效应。对于PACC,当A4队列未富集时,安慰剂组和Solanezumab组之间的模型调整后平均PACC分数未观察到显著差异,与原始A4研究的结论一致。通过任何模型富集后,模型调整后平均PACC的差异仍然不显著,表明回顾性富集对于恢复主要结局的潜在治疗效应没有明显的益处。
对于FBP皮层SUVR,在未富集队列的平均SUVR变化中观察到试验组间的显著差异,平均效应大小为-0.407 ± 0.08(p < 0.001),表明治疗与淀粉样蛋白积累速率的降低相关。富集后,除一年进展者模型外,这种显著差异在其他所有模型中均得以保持。通过两年、四年和五年模型富集导致对比的平均效应大小略有增加,尽管由于样本量减少,标准误有所增加。效能分析显示,对于20至80的样本量,通过两年、四年和五年模型富集后,检测此效应的效能有所增加。然而,通过一年模型以及看似矛盾地通过三年模型富集则显示效能下降。这种模式与表4中ANCOVA的结果一致,其中通过两年、四年和五年模型富集后平均效应大小增加,但一年或三年模型则没有。
本研究对使用淀粉样蛋白PET和MRI影像特征预测临床前阿尔茨海默病个体未来认知障碍的机器学习分类器进行了严格评估。通过留一地点和留一示踪剂交叉验证,证明模型对未见地点和淀粉样蛋白PET示踪剂具有强泛化能力,支持了这些模型在增强大型、多联盟AD临床试验中的可行性。此外,通过使用A4研究的真实临床试验数据,证明这些分类器可能有助于提高检测治疗效应的统计效能。本研究代表了针对无症状临床前AD人群开发和验证分层模型的重要且具有临床意义的一步。鉴于许多研究趋势是靶向疾病早期阶段,这对于未来AD疾病修饰疗法的研究尤为重要。此外,由于淀粉样蛋白PET通常用于筛选临床试验参与者,研究发现在简单的整体淀粉样蛋白负荷二分法之外,量化淀粉样蛋白积累的空间分布对于分层和富集试验队列具有附加价值。在临床应用方面,当前淀粉样蛋白PET的用例包括在实施抗淀粉样蛋白治疗前确定异常病理的存在,尽管其在无症状个体中的使用仍是一个活跃的辩论领域。然而,假设未来批准了针对无症状临床前AD个体的治疗,本研究设想,淀粉样蛋白PET结合我们的预测模型将成为指导个体化治疗计划的有价值的预后工具。随着淀粉样蛋白PET报销机制的放宽,此类应用有望扩展。
与先前研究相比,本研究的分类器在可比较的随访窗口上取得了略低的性能。对于大多数留出地点,SVM分类器在所有进展时间上实现了0.66或更高的样本外ROC-AUC,包括在识别4年或更久的进展者时ROC-AUC为0.74或更高。显著的例外是HABS,其得分低于0.5。尽管性能相对较低,但本研究的一个重要区别在于将感兴趣的队列限制在表现出异常脑淀粉样蛋白病变的CU个体,这已被提议为AD生物学定义的核心标准。性能差异可能归因于可用于区分稳定者与进展者的淀粉样蛋白信号减少。此外,与先前报道的在未限制为淀粉样蛋白阳性的HABS CU队列上的分类性能相比,本研究的淀粉样蛋白阳性CU队列样本量小,且稳定者与进展者比例极不平衡。尽管如此,研究结果仍然表明SVM分类器在相关任务上对样本外数据具有相当的鲁棒性,这对于此类模型在临床前AD临床试验环境中的可行性至关重要。
除了地点泛化性,研究还展示了对不同淀粉样蛋白PET示踪剂的良好泛化性。在单个淀粉样蛋白示踪剂上训练的模型,当应用于另一种示踪剂时,即使没有进行明确的示踪剂标准化,也实现了0.72或更高的ROC-AUC。这与先前显示ML模型能够准确预测淀粉样蛋白阳性或未来认知衰退而无需明确标准化的研究一致,可能表明ML模型能够找到高维PET数据的低维、示踪剂无关的表征。然而,在二元分类任务背景下,用于确定二元类别决策的阈值(即线性SVM的分离超平面)可能无法泛化到样本外示踪剂,敏感性和特异性的高度不平衡证明了这一点。将区域淀粉样蛋白SUVR转换为Centiloids产生了在这些指标间取得更好平衡的模型,表明淀粉样蛋白PET测量的明确标准化对ML模型仍有价值。
虽然已知整体淀粉样蛋白PET信号与未来认知衰退相关,但近期研究表明,淀粉样蛋白积累的区域模式可能是认知衰退风险更敏感的标记物,特别是对于临床前AD。通过在区域水平利用淀粉样蛋白PET生物标记物,模型能够辨别在临床前阶段区分稳定者与进展者的空间模式。最重要的淀粉样蛋白SUVR特征包括颞叶、额上回和额中回以及枕中回皮层。根据PET分期模型,这些区域构成了淀粉样蛋白积累的中期阶段。相比之下,模型对构成早期积累阶段的区域(如楔前叶和眶额皮层)分配了较低的平均特征重要性,表明超过整体淀粉样蛋白阈值后,中期阶段区域对于区分未来认知衰退变得更加重要。此外,对海马体和杏仁核等皮层下结构分配了较低的重要性,这些结构倾向于在疾病更晚期积累淀粉样蛋白。在MRI特征方面,侧脑室体积以及海马体和杏仁核等特定皮层下区域的体积具有最高的特征重要性。这些区域的萎缩一直被认为是AD疾病进展的稳健标记物。此外,研究发现,随着进展时间延长,淀粉样蛋白SUVR特征重要性的增加速率高于体积特征。嵌套模型分析与这一模式一致,在较高的进展时间,省略淀粉样蛋白PET特征导致模型性能和泛化能力下降的程度大于省略MRI或非影像特征。这些发现可能表明,随着队列包含更多早期进展者,淀粉样蛋白PET对模型预测的影响变得越来越重要。这与当前的AD发病机制模型一致,其中淀粉样蛋白预计在神经退行性变发生之前就异常升高,因此可能在疾病早期阶段作为未来认知衰退的更好指标。本研究未使用tau PET,而tau PET已被证明与纵向认知衰退密切相关,并且可能是比淀粉样蛋白PET或MRI更好的认知衰退速率预测因子。尽管如此,仅淀粉样蛋白PET成像已被证明即使在淀粉样蛋白阳性、认知正常的队列中,对预测认知衰退也具有强大的预后价值,本研究结果进一步支持了这一观点。这对于针对无症状临床前AD的临床试验尤其有价值,因为与tau PET相比,淀粉样蛋白PET更常被用作筛选标准。
在临床试验队列招募的背景下,即使在通过整体淀粉样蛋白PET信号或APOE4基因型等单一风险因素分层后,AD的临床表现仍可能高度异质。或者,在多模态风险因素组合上训练的ML分层模型已被证明能更准确地预测纵向认知衰退,从而更大程度地提升临床试验操作效能。本研究成功识别了A4试验参与者中表现出不同认知衰退速率的两种不同亚型,其中预测的进展者经历了比稳定者显著更快的衰退速率。然而,当应用于队列富集时,模型未能证明在增强主要认知结局PACC的治疗效应方面具有可衡量的益处。这可能归因于Solanezumab疗法确实缺乏潜在的治疗效应。尽管如此,假设存在真实的药物效应,如先前文献所证明,ML模型仍可能提升治疗效应的检测能力。有趣的是,在次要结局(皮层淀粉样蛋白沉积)方面,两年、四年和五年分类器确定的富集队列导致检测纵向淀粉样蛋白积累差异的效能增加。然而,一年模型并非如此(可能是由于选

生物通微信公众号
微信
新浪微博


生物通 版权所有