基于真实世界电子健康记录的认知障碍、痴呆和阿尔茨海默病预测回归模型研究

时间：2025年10月21日

来源：Frontiers in Neurology

编辑推荐：

本研究基于真实世界电子健康记录数据，开发了四种预测认知障碍、轻度认知障碍MCI和阿尔茨海默病AD的回归模型。模型3AD预测和模型1认知障碍/痴呆预测表现最佳AUC分别为0.852和0.796，年龄和淡漠是主要风险因素，高等教育则是保护因素。该研究为早期筛查提供了实用工具。

引言

全球老年人口正在显著增长。未来15年内，60岁及以上人口数量将增加56%。这种快速的人口结构向老龄化转变将导致疾病和残疾率升高，尤其影响认知功能。因此，轻度认知障碍MCI、阿尔茨海默病AD和其他类型痴呆症的患病率预计会随之上升。

认知障碍被定义为一种以完全或部分智力功能障碍为特征的临床实体。鉴于认知障碍与年龄相关，且当前预期寿命不断延长，管理这些疾病已成为一个重大的公共卫生问题，对卫生和社会服务构成挑战，也是全球老年人残疾和依赖的主要原因。据世界卫生组织估计，痴呆症患者总数预计在2030年达到8200万，2050年达到1.52亿。此外，AD和认知障碍疾病负担沉重，对发病率、残疾率和死亡率有明显影响。

然而，尽管病例数量多、疾病负担高，仍有相当大比例的病例未被充分诊断，这阻碍了及早采取药物和非药物治疗以延缓认知衰退和控制行为障碍。在最早阶段检测和预测认知衰退对于实施及时干预至关重要，这可能有助于减缓疾病进展并改善患者结局。

由于认知障碍，特别是AD，可归因于潜在可改变的风险因素（如糖尿病、高血压、肥胖、吸烟、缺乏运动、抑郁、认知活动不足和社会孤立等），早期识别和预防这些风险因素以及疾病预测必须是避免新病例发生的关键。事实上，疾病预测是七十多年来科学界高度关注的领域，一些团体已开发出基于患者特征和病史来识别疾病的工具。

利用真实世界数据创建精确的回归模型，为增强我们识别认知障碍和痴呆风险个体的能力提供了一条有前景的路径。这些模型利用包含各种生物、临床和生活方式因素的复杂数据集，能够识别可能被忽视的微妙模式和风险因素。

准确回归模型的开发依赖于可以高效分析大规模数据的复杂机器学习技术。这些模型不仅能预测未来的认知衰退，还能为疾病进展的潜在机制提供见解，为新的治疗方法和精准医学计划铺平道路。

因此，这项试点研究的主要目标是开发一个用于健康受试者的认知障碍和痴呆回归模型，使用的是Quirónsalud痴呆团队拥有的认知障碍数据库中的真实世界数据。同时，使用相同方法开发了另外3个回归模型，分别用于预测MCI、AD和认知障碍恶化（对随时间进行多次神经心理学测定的患者进行的探索性模型）。

材料与方法

设计

本研究设计为一项试点病例对照研究，旨在开发不同的认知障碍回归模型，未来可作为风险计算器应用于健康受试者。研究结果通过分析Quirónsalud痴呆团队拥有的数据库获得。该数据库包含2007年至2022年间因认知主诉在马德里Quirónsalud医院神经科就诊的个体数据，包括整体衰退量表GDS或神经精神量表问卷NPI-Q等测定。每位患者可能进行多次评估，因此在大多数分析中，每次评估被视为一个独立案例。

Quironsalud马德里大学医院是西班牙一家专注于神经科护理和研究的私立医疗中心。神经科包括20名神经科医生和2名神经心理学家。每年，该部门处理约50,000例神经科咨询，其中约15%（7,500例咨询）与认知障碍有关。

NPI包含12个评估12种神经精神症状存在和严重程度的项目。本研究中，该问卷得分超过1分的所有患者被视为该变量的病例。关于GDS评分，该评分包含以下类别：1. 无认知障碍；2. 记忆主诉；3. MCI；4. 中度认知障碍；5. 中重度认知缺陷；6. 重度认知障碍；7. 极重度认知缺陷。基于此评分，患者和评估被分类为本研究后续步骤中创建的回归模型的对照组和病例组：GDS评分低（GDS=1或2）为“对照组”，而评分较高（GDS≥3）为“病例组”。在此最后一类中，MCI病例为GDS=3者，AD病例为GDS≥3且神经科临床诊断符合AD者。该神经科诊断也包含在数据库中，并基于国际疾病分类。

对数据收集期间进行多次神经心理学测试测定的个体进行了额外分析，该模型旨在识别恶化的认知障碍/痴呆。此时有两组：随时间推移GDS评分恶化的患者（GDS评分至少增加1分）和保持或改善评分的患者（GDS评分未增加或至少减少1分）。评分差异以最后一次测定为参考计算。

这些神经心理学测试，以及年龄、教育水平、职业和痴呆家族史，是在患者数据收集期间（2007年至2022年）按标准临床实践常规就诊时获得的。临床变量和病史，包括糖尿病DM、高血压、吸烟和饮酒，从这些患者的电子病历中提取。

为实现研究目标提出的四个模型如下：

•
模型1（认知障碍/痴呆）：比较任何认知障碍和痴呆病例（GDS≥3）与对照组（GDS=1或2）。
•
模型2（MCI）：比较MCI病例（GDS=3）与对照组（GDS=1或2）。
•
模型3（AD）：比较AD诊断病例（GDS评分≥3且神经科临床诊断为AD）与对照组（GDS=1或2）。
•
模型4（多次神经心理学测试测定患者的认知障碍和痴呆）：比较GDS评分随时间恶化的病例与保持或改善评分的病例。

所有模型均基于相同的患者评估数据库构建。四个模型的分析独立进行，未进行模型间比较。

研究人群

数据库中纳入了2007年至2022年间有认知主诉的个体的评估。因任何原因无法进行所需神经心理学测试的个体被排除。未考虑其他标准作为纳入或排除标准。

这项试点研究最终纳入2497名个体样本。其中，有24名个体没有GDS评分。这些患者的数据被纳入人口学特征的描述性分析，但未纳入回归模型。关于评估次数，总共有2996次评估，其中2965次有GDS评分，其余31次未呈现认知评估，未纳入模型。

统计方法

首先进行描述性分析以了解研究样本的特征。连续变量报告为均值（和标准差）或中位数和四分位距（如适用）。分类变量以相对和绝对频率汇总。此类描述性统计针对总研究人群以及每个模型中使用的每个子样本进行报告。未对任何变量进行缺失值插补。缺失值数量被量化并提供。

接下来，开发了四个逻辑回归模型以识别相应结局的预测变量。所有模型均在评估次数水平而非个体水平上进行。由于同一参与者可能有不同的测定值和每次的不同评分，因此每次测定被视为一个独立案例。

逻辑回归模型构建为广义线性混合模型GLMM。GLMM包含解释固定效应和随机效应的项。引入随机效应时，考虑了受试者内的方差，因此同一受试者的多个条目可以进入模型。使用GLMM允许利用整个数据集，因为它包含具有多个条目的患者，从而提供更完整和精确的模型。模型构建遵循以下步骤：

•
步骤1：从原始数据中提取每个模型的相应评估子集，以估计存在或不存在痴呆（模型1）、MCI（模型2）或AD（模型3）的二元响应。对于模型4（探索性），仅选择具有多次测量的患者：基于GDS评分估计恶化的认知障碍（GDS评分增加超过1分的患者）。
•
步骤2：在所有模型中，创建一个分类变量来区分相应的对照组和病例组。对于最后一个模型（4），创建一个指示恶化（病例）与否（对照组）的变量，基于最后一次和第一次GDS评分之间的差异。
•
步骤3：将数据按约3:1的比例随机分为训练数据集和测试数据集。模型在训练数据集中开发，随后在测试数据集中验证。
•
步骤4：通过逐步回归选择最佳特征来构建多元逻辑回归模型。这是一个以逐步方式将预测变量引入和移出模型的过程，直到没有统计上有效的理由再引入或移除任何预测变量为止。
•
步骤5：使用方差膨胀因子检验所选变量的共线性。
•
步骤6：用先前选择的变量拟合多元逻辑回归模型。如果仅包含一个协变量，则使用简单逻辑回归模型。
•
步骤7：在训练数据集上计算受试者操作特征ROC曲线和曲线下面积AUC。
•
步骤8：为了验证模型，将其应用于测试数据集，以查看模型在面对不同数据时是否预测良好。通过ROC和AUC评估区分度。

AUC≥0.9被认为优秀，0.8至0.9之间良好，0.7至0.8之间一般，0.6至0.7之间较差，0.5至0.6之间被认为失败。

敏感性和特异性报告对应于由最高约登指数选择的概率阈值。

对于所有检验，p值低于0.05被认为显著，p值在0.05至0.1之间被认为有显著性趋势。

结果

研究人群

最终纳入2497名个体的样本。评估总次数为2996次；其中2965次有GDS评分，31次未呈现认知评估，未纳入模型但纳入描述性分析。基于GDS评分，623次评估被归类为“认知健康”（对照评估），2342次为认知障碍和痴呆（模型1包含的患者），644次为MCI（模型2包含的患者），966次为AD（这些评估基于GDS评分和临床诊断，模型3包含的患者）。因此，在模型1包含的2342次评估中，644次对应MCI，966次对应AD；这些也分别包含在模型2和模型3中。此外，有379名患者进行了超过一次神经心理学评估（758次评估，对应这些患者的第一次和最后一次评估）。

社会人口学特征

研究中包含的不同评估组的社会人口学特征如表1所示。整个分析样本的平均年龄为73岁；几乎一半的评估患者（43.6%）受教育年限超过20年，约三分之二（63.3%）是专业人士，17.1%有痴呆一级家族史。

按组别划分，对照组平均年龄最低（64.4岁），教育水平最高（99.0%的条目来自受教育11年或以上的受试者）。相比之下，AD组平均年龄最高（76.8岁），受教育年限较少（93.9%的组内条目代表受教育11年或以上的患者，是与其他组相同类别相比百分比最小的）。职业、吸烟状况和饮酒相关的变量在所有组中分布相似。关于家族史，对照组（21.2%）和AD患者（20.0%）具有痴呆一级家族史的比例最高。

回归模型

不同回归模型获得的结果如下：

•
对于模型1（认知障碍和痴呆），选定的预测变量为：年龄（OR=1.721）、淡漠（OR=34.952）、焦虑（OR=0.223）和教育[OR=0.024（16-20年）和0.026（>20年）对比≤15年]，ROC曲线AUC为0.796，敏感性0.60，特异性0.86。
•
对于模型2（MCI），选定的变量为：年龄（OR=1.222）、淡漠（OR=2.650）、抑郁（OR=0.318）和教育[OR=0.232（16-20年）和0.217（>20年）对比≤15年]，ROC曲线AUC为0.657，敏感性0.82，特异性0.45。
•
对于模型3（AD），包含的变量为年龄（OR=1.490）、家族史（OR=4.147 一级对比无）、淡漠（OR=8.247）、焦虑（OR=0.302）和教育[OR=0.103（16-20年）和0.119（>20年对比≤15年）]，ROC曲线AUC为0.852，敏感性0.84，特异性0.73。
•
对于模型4（恶化的认知障碍和痴呆），仅年龄被选中（OR=1.003），ROC曲线AUC为0.532，敏感性0.59，特异性0.65。

四个模型中每个模型的概率分布估计参数如表2所述。

模型3显示出最佳的选择能力（AUC 0.85），其次是模型1（AUC 0.80）。相反，模型4表现出最差的选择能力（AUC 0.53），其次是模型2（AUC 0.67）。图1显示了模型1（图1a）和模型3（图1b）的ROC曲线AUC。

讨论

认知障碍，特别是AD，通常可归因于潜在可改变的风险因素，如糖尿病、高血压、肥胖、吸烟、缺乏运动、抑郁、认知活动不足和社会孤立。最近的其他出版物也强调了其他因素，如未经治疗的视力丧失、骨质疏松症或高LDL胆固醇，作为痴呆的风险因素。早期识别和预防这些风险因素，以及准确的疾病预测，是预防新病例的关键策略。疾病预测七十多年来一直是科学界关注的重点，各种团体已开发出基于患者特征和病史来识别疾病的工具。

年龄、低教育水平和淡漠是我们研究分析的主要模型中最重要风险因素。众所周知，衰老是许多慢性病（包括痴呆）发展的最强大风险因素，这是由于众多细胞和分子通路的改变所致。据描述，对应激的适应、表观遗传学、炎症、大分子损伤、代谢、蛋白质稳态、干细胞、再生和有缺陷的自噬可能被认为是支撑衰老过程的主要细胞和分子机制。教育水平较高的个体发生认知障碍和痴呆（OR=0.024）、MCI（OR=0.232）或AD（OR=0.103）的风险较低，这与之前的研究一致。教育程度长期以来一直与整个生命周期中认知功能的增强以及痴呆风险的降低相关。教育水平与心理运动速度、记忆和抽象推理等认知能力有关。一些作者发现，在生命最初几十年里这些认知能力的发展改善对于提高成年早期的认知能力具有巨大潜力，并能持续到老年。此外，一旦诊断为MCI，认知训练干预可以减少认知功能的恶化，并有助于延缓向其他痴呆症的进展。这是因为认知训练可以刺激预先存在的神经储备或招募神经回路作为“补偿性支架”，引发神经可塑性重组作为一种适应性反应。在我们的样本中，几乎一半的患者受教育超过20年，表明患者群体受教育程度很高。

淡漠和焦虑也是我们研究中的预测变量。然而，淡漠是所有三个模型的风险因素（模型1 OR=34.952；模型2 OR=2.650；模型3 OR=8.247），而焦虑在模型1（认知障碍和痴呆；OR=0.223）和模型3（AD；OR=0.302）中显示为保护因素。此外，抑郁在回归模型2（OR=0.318）中是保护因素。

抑郁、焦虑和淡漠是MCI中常见的神经精神特征。一些出版物描述，在MCI受试者中，焦虑、激动和易怒症状可能反映潜在的AD病理。Ramakers等人发现，有焦虑症状的患者与认知正常患者相比，脑脊液淀粉样蛋白-β 42（OR=2.3）和t-tau（OR=2.6）浓度异常。尽管焦虑可能是对其认知衰退自知力的心理反应，或在AD病理中诱导下丘脑-垂体-肾上腺轴失调，但与我们的发现一致的其他研究未发现这种关联，认为焦虑不是转化为AD的预测因子。这些结果的理由并不容易，但一个可能的解释是一旦认知障碍进展，患者可能失去对记忆缺陷和症状的客观感知，他们的焦虑水平会下降。此外，因为在这个人群中使用抗焦虑和抗抑郁治疗很常见，其使用可能影响获得的NPI评分，因此症状可能在接受治疗时得到控制。

关于抑郁对MCI和痴呆的影响，已发表的结果也存在分歧，因为与我们结果一致的其他作者未发现抑郁症状与AD之间的关联。相反，其他研究报告称，抑郁症状预测了MCI受试者的认知衰退和AD。由于MCI受试者的抑郁症状可能与其他神经退行性过程有关，如突触或神经元丢失、血管变化、神经递质失调或原发性情感障碍，需要进一步研究来阐明其在MCI和痴呆中的作用。如上所述，了解抗抑郁治疗对获得的NPI评分可能产生的影响也很重要，因为研究人群是治疗需求高的人群。

另一方面，淡漠可能是额叶回路变性和白质病变，以及更严重胆碱能功能障碍的结果。最近的研究将淡漠与偶发痴呆和较差的临床结局（认知、功能、神经精神症状和照顾者负担）联系起来，认为这种症状是老年人临床衰退和神经认知障碍中较差结局的标志。此外，淡漠与MCI患者转化为AD的风险增加有关。考虑到所有这些发现，评估该变量必须是预测MCI诊断和转化为AD及其他痴呆症的关键，一旦确诊，必须考虑其治疗方法。

在模型3（AD）中，除了年龄、教育、淡漠和焦虑外，家族史也被认为是患病的风险因素。先前已发表该病理学的遗传性很高，估计高达60-80%的AD患者有家族史。尽管仍在进行大量研究，但这种强大的遗传成分被广泛接受，最近的研究已检测到多达73个可能与疾病发展有关的独立基因位点。因此，在进行痴呆诊断时，必须考虑这一因素，并且必须是早期检测 preclinical AD 模型中包含的关键因素。

认知障碍，特别是AD，可归因于其他潜在可改变的风险因素。事实上，中年期高血压、高胆固醇、糖尿病和吸烟各自与痴呆风险增加20%至40%相关。尽管建议控制这些因素，并且改变生活方式始终是预防不同并发症的策略，但在我们的研究中未发现与血管风险因素相关。这可能是因为这些变量是直接从电子病历中提取的，并且不是在执行神经心理学测试时收集的。这些结果应谨慎对待，因为它们可能被低估，因为现有的医疗图表数据可能不包含所有需要的信息或可能不是最新的。

如前所述，认知衰退通常是进行性的，经历从主观认知障碍（认知主诉但认知筛查测试正常）到MCI再到痴呆（主要是AD形式）的不同阶段。在本研究中，创建了一个探索性模型以预测恶化的认知障碍/痴呆（模型4）。在该模型中，比较了GDS评分随时间恶化的患者与保持或改善评分的患者，然而获得了较差的敏感性（0.59）和特异性（0.65），因此选择能力也较差。因此，应对该人群进行系统和方案化的评估以获得更确凿的数据。

根据我们研究中获得的AUC结果，模型3（AD）是具有最佳选择能力的模型，AUC为0.85，其次是模型1（认知障碍和痴呆），其模型选择性能良好，AUC为0.80。因此，可以推荐其用于预测出现可疑症状之前或之后到诊所就诊的健康个体的认知障碍和痴呆（包括AD）诊断。基于我们的结果，年龄、教育水平、淡漠和焦虑可能是这两个模型中需要包含的关键因素。此外，家族史在AD模型中也应予以考虑。

相比之下，模型4（恶化的认知障碍和痴呆）表现出最差的选择能力，AUC为0.53，其次是模型2（MCI），其AUC为0.66也被认为较差，目前不推荐其临床应用。

这项研究有几个局限性。关键变量，如吸烟、饮酒、糖尿病和高血压，是直接从电子病历中提取的，而不是与神经心理学评估同时收集的。由于医疗记录中不完整或不一致的文档记录，这些因素可能被低估，这可能因不同专家的实践模式而异。在我们的样本中，几乎一半的患者受教育超过20年，表明患者群体受教育程度很高，这与私立医疗环境中的患者类型一致，他们拥有更多的社会经济资源和学术培养可能性。此外，患者首次就诊的年龄在私立环境可能与公立环境不同，患者会更早去私立医疗评估神经科症状，因为转诊专科医生可能更快。因此，在这方面获得的结果可能不能直接推广到其他人群。因此，在解释结果时应谨慎，并应考虑对更多样化样本进行额外研究的可能性。

由于所有模型使用相同的数据库，包含在更通用模型1中的患者可能与包含在更具体模型2和3中的患者重叠。由于模型间比较不是研究目标，并且这些模型的临床意义和效用以及解释不同，因此未估计因此事实造成的干扰。此外，尽管模型1包含了所有原因痴呆病例，并且它是我们感兴趣的研究人群，但一个排除MCI和AD的单独模型本有助于阐明一旦亚型被移除后，在全因模型1中检测到的主要预测因子是否仍然显著和一致。然而，由于模型1中包含的大多数病例对应MCI和AD，并且该模型不是研究范围，最终未进行此额外模型的分析。

此外，在具有纵向数据的患者中，随访访视是根据个体患者需求而非标准化方案安排的。这种可变性可能影响数据的一致性和可靠性。而且，研究中涉及的医生和患者可能不能完全代表西班牙所有专科医生和认知障碍或痴呆个体，因为样本来自私立医疗环境。最后，尽管存在这些局限性，鉴于我们地区缺乏先前的类似数据，这项研究在真实生活背景下为这些疾病提供了有价值的见解。此外，这些模型使用的变量易于从计算机化医疗记录中提取，使得可以在任何医疗环境中应用它们，以便早期检测有认知障碍风险的病例，从而可以进行更密集的监测。

结论

我们的研究强调了年龄、教育水平和淡漠作为认知障碍和AD关键风险因素的重要性。虽然焦虑和抑郁呈现混合关联，但我们的发现强调了较高教育程度对认知衰退的保护作用。值得注意的是，淡漠在不同模型中始终作为一个风险因素出现，突出了其在预测认知障碍进展中的重要性。家族史也增加了AD的风险，这与该病理学中已认识的遗传易感性一致。我们的AD预测模型（AUC 0.85）和认知障碍与痴呆模型（AUC 0.80）的稳健性能支持了它们在临床环境中的潜在效用。相反，预测认知障碍进展和MCI的模型显示出有限的预测能力，表明需要进一步研究。

将年龄、教育水平、淡漠和焦虑整合到预测模型中，为认知障碍和AD的早期识别和干预提供了一种有前景的方法。未来的研究应侧重于系统和标准化的数据收集，以增强这些预测工具的可靠性和适用性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部