背景:衰弱是影响老年卒中患者预后的关键因素。现有预测模型多聚焦于预测性能,常忽视严格的方法学质量评估,限制了其临床适用性。本研究旨在通过系统评价与荟萃分析,评估中国老年卒中患者现有衰弱预测模型的预测性能与方法学质量,识别最常纳入的预测因子,并为未来研究提供循证指导。方法:检索PubMed、Embase、Web of Science核心合集、Cochrane Library、EBSCOhost及多个中文数据库截至2025年5月发表的研究。两名研究者独立采用预测模型研究系统评价关键评估与数据提取清单提取数据,并使用预测模型偏倚风险评估工具(PROBAST)评估偏倚风险。采用R软件(版本4.5.1)随机效应模型合并衰弱预后模型的受试者工作特征曲线下面积(AUC)。结果:共纳入12项研究,其中11项符合荟萃分析条件。模型AUC范围为0.629至0.915。高频老年预测因子包括年龄、神经功能、日常生活活动能力、体力锻炼和营养状态。方法学评估显示所有模型均存在高偏倚风险,主要源于非前瞻性设计与分析阶段缺陷。荟萃分析合并AUC为0.82(95%CI:0.76-0.88,I2=92.0%,P<0.0001)。局限性包括样本量小与连续变量处理不当。结论:本系统评价表明中国老年卒中患者衰弱预测模型区分能力中等(合并AUC 0.82),但所有模型均存在方法学缺陷,包括非前瞻性设计、样本量不足及缺乏外部验证,削弱了其可靠性与临床效用。研究人员未推荐任何特定模型,而是梳理现有证据并指出改进方向。未来研究应优先开展前瞻性研究,进行严格的模型开发与外部验证。
1. 引言
人口老龄化背景下,老年卒中患者的衰弱构成重大临床挑战。衰弱是一种以多系统失调与生理储备下降为特征的老龄综合征,与高龄及多重健康问题密切相关。衰弱患病率随年龄增长升高,约11%的50-59岁人群受累,90岁以上人群超过50%。卒中是与衰老相关的常见致残性疾病,与衰弱存在双向有害关联:衰弱增加卒中风险,并与功能恢复差、生活质量低及死亡率高相关;卒中则通过神经损伤与活动能力下降导致或加重衰弱。神经生物学研究显示,衰弱与血管性脑损伤相关,表现为白质高信号体积增加与灰质体积减少。因此,老年卒中人群是需要针对性有效照护策略的高度脆弱群体。临床管理的主要挑战在于衰弱识别不足。早期识别高危个体对实施主动个体化干预至关重要,营养支持与结构化运动等策略可预防或延缓功能下降,改善长期结局。有效预防需筛查衰弱高风险人群,以实现医疗资源高效配置与精准干预,降低疾病进展风险。近年针对老年卒中患者衰弱风险预测模型的研究显著增长,这些模型整合人口学、临床、心理社会、实验室及人体测量学数据,辅助医护人员早期识别高危个体并实施干预。然而当前研究存在过度关注预测性能(尤其是AUC)、忽视方法学质量评估的倾向。模型的可靠性与临床适用性根本上取决于方法学严谨性,包括研究设计、样本量、变量与缺失数据处理及验证策略。AUC看似较高(如0.915)但偏倚风险高的模型临床价值有限,甚至可能误导临床决策。例如部分模型虽统计性能良好(AUC 0.78-0.94),但普遍存在单变量筛选预测因子(严重损害模型效度)、样本量小(如仅231例参与者,影响稳定性与普适性)、验证不足(多仅内部验证,缺乏独立代表性人群的外部验证)等问题。校准度(预测概率与实际观察风险的一致性)常被忽略。现有范围综述聚焦临床领域网络荟萃分析方法学,未专门探讨卒中患者衰弱预后模型(尤其中国人群)。这些方法论缺陷共同阻碍了现有模型的临床转化,亟需全面综合评估其预测性能与方法学质量,明确局限与挑战,指导未来研究与临床应用。为此,研究人员开展本系统评价与荟萃分析,目标包括:系统总结中国老年卒中患者现有衰弱模型的报告预测性能;使用PROBAST严格评估模型方法学质量与偏倚风险;通过荟萃分析定量合成其区分性能;识别常用老年预测因子。本评价不寻求单一最优模型或量化单个变量的独立预测效应,而是全面概述现状、批判性评价方法学质量、识别共性缺陷,为开发更可靠、具临床适用性的预测工具提供依据。
2. 方法
2.1 检索策略
两名研究者独立检索PubMed、Embase、Web of Science核心合集、Cochrane Library、EBSCOhost(含MEDLINE、CINAHL、PsycINFO、Academic Search Complete)及多个中文数据库(中国知网、万方数据、维普网、中国生物医学文献数据库),检索时限为建库至2025年5月。检索词涵盖老年/老龄、卒中/脑缺血/脑血管意外、衰弱/虚弱、预测模型/风险预测/列线图/机器学习/随机森林/Logistic回归等类别,各数据库检索策略单独定制,结合受控词汇与自由词以确保全面覆盖。补充材料提供完整检索策略。同时手动检索纳入文献参考文献以识别相关研究。使用EndNote自动去重与人工核查处理重复记录。最终分析聚焦中国人群。
2.2 纳入与排除标准
纳入标准:采用横断面、队列或病例对照设计;纳入年龄≥60岁的成年卒中患者;开发或验证多变量衰弱预测模型,报告性能指标(如AUC);采用经验证的工具定义衰弱(如蒂尔堡衰弱指标)。排除二次文献(非原始研究,如综述、方案)、不合格人群或结局研究(如聚焦认知衰弱、口腔衰弱等特定亚型)、仅报告单变量关联、无法获取全文的研究。
2.3 研究筛选
两名研究者使用EndNote 2025独立管理检索结果并进行筛选,分歧通过共识或咨询第三位研究者解决。去重后筛选标题与摘要识别潜在合格研究,获取全文进行最终纳入评估,同时检查参考文献以补充相关研究。本系统评价遵循乔安娜布里格斯研究所证据综合手册(含预后与预测模型研究指南),并按系统评价与荟萃分析优先报告条目2020(PRISMA 2020)声明报告。
2.4 数据提取与质量评估
两名研究者基于预测模型研究系统评价关键评估与数据提取清单独立提取数据,内容包括数据来源、参与者特征、衰弱定义与工具、模型开发与验证过程、性能指标等。两名研究者独立使用PROBAST评估纳入模型的偏倚风险与适用性,从参与者、预测因子、结局、分析四个领域通过系列信号问题进行评估:参与者领域评估纳入标准与数据来源是否恰当;预测因子领域评估是否明确定义、临床可用且在不知晓结局情况下测量;结局领域评估是否明确定义与客观测量;分析领域评估是否考虑样本量、恰当处理缺失数据、避免单变量筛选预测因子、评估区分度与校准度。仅当所有领域均为低风险时判定整体低偏倚风险;任一领域为高偏倚风险则判定整体高偏倚风险;若无高偏倚风险但存在不确定领域则判定整体不确定。
2.5 数据合成与统计分析
鉴于研究方法与人群的异质性,采用叙述性总结与荟萃分析结合。模型性能评估标准为:区分度用AUC评价,0.7-0.9为中等准确度,>0.9为高准确度;校准度用霍斯默-莱梅肖检验(P>0.05提示拟合良好)与校准曲线(曲线与一致性线越接近校准越好)评估。统计所有最终模型识别的独立预测因子并计算其在各研究中的频率,识别最常纳入的预测因子。荟萃分析采用R软件(版本4.5.1)。12项纳入研究中11项报告了可合并的AUC值,1项因未报告被排除。这11项研究包含13个预测模型(2项研究分别在同一队列开发了传统回归模型与机器学习模型)。为避免同一研究人群衍生多个模型的统计依赖性,未进行包含所有13个模型的单一整体荟萃分析,而是按模型类型分层进行亚组分析:传统回归模型(如Logistic回归、列线图,9项研究的9个模型)与机器学习模型(4项研究的4个模型),每亚组分析中每项研究仅贡献一个模型。采用I2 统计量量化异质性,I2 >50%采用随机效应模型,I2 ≤50%采用固定效应模型。通过亚组分析探索异质性来源,采用留一法敏感性分析评估合并结果的稳健性,通过漏斗图与统计学检验(埃格尔检验、贝格检验,P>0.05视为低偏倚风险)评估发表偏倚。作为探索性分析,也进行了包含所有13个模型的整体荟萃分析(承认潜在统计依赖性)。
3. 结果
3.1 检索结果
初检获得1729条记录,去重685条,筛选标题与摘要1044条,排除1004条,全文评估40篇,排除28篇,最终纳入12项合格研究。最终分析包含12项研究衍生的14个预测模型,其中2项研究各开发2个不同模型(Logistic回归与随机森林、Logistic回归与人工神经网络)。
3.2 纳入研究特征
12项研究均发表于2022-2025年,共开发14个中国老年衰弱预测模型。研究设计包括横断面(6个,50.0%)、回顾性(3个,25.0%)与前瞻性队列(3个,25.0%),均为单中心医院设置。模型开发样本量为98-904例,女性占比28.85%-54.94%,衰弱患病率为15.3%-64.1%。最常用的衰弱评估工具为弗里德衰弱表型(5个模型),其次为FRAIL量表(3个)、蒂尔堡衰弱指标(2个)、老年综合评估-衰弱指数(1个)、老年人衰弱评估量表(1个)。
3.3 模型开发
候选预测因子多维,涵盖社会人口学、临床、生活方式、人体测量学、实验室、社会心理领域,各研究考虑候选变量数为13-42个。仅1项研究采用中位数插补处理缺失数据。最终预测因子选择方法因建模技术而异:机器学习用于特征选择;传统回归模型通常采用单变量筛选后多变量逐步选择;列线图从其基础回归模型衍生最终预测因子。建模方法包括多变量Logistic回归(7个模型)、列线图(2项研究)、机器学习算法(4项研究)。最终模型规模包含2-12个预测因子,共68个不同变量。年龄是最常纳入的预测因子(7个模型,50.0%),其次为神经功能(6个模型,42.9%)、体力锻炼与营养状态(各4个模型,28.6%)。跌倒史、吞咽困难、多重共病、抑郁、经济水平各在3个模型中纳入。多药共用、白蛋白水平、认知功能等7个预测因子各在2个模型中纳入,12个预测因子仅在单个模型中出现。
3.4 模型验证
仅1项研究进行了内部与外部验证,其余7个模型(58.3%)报告了内部验证,4个模型(33.3%)开发后无验证。内部验证最常用自助法重抽样(3个模型),其次为五折交叉验证(2个模型)、简单交叉验证(1个模型)。唯一外部验证采用时间验证。
3.5 模型性能
除1项研究外,所有模型均报告了区分度,主要采用AUC(13个模型,92.9%)或C指数(1个模型,7.14%)。模型开发阶段AUC或C指数范围为0.629-0.915。所有内部验证模型均保持良好区分度,AUC范围为0.676-0.937。6个模型(42.9%)报告了校准度,开发阶段2个模型霍斯默-莱梅肖检验显示可接受校准(P>0.05),但未进一步解释;验证阶段3个模型采用校准曲线提示校准良好,另有模型同时采用霍斯默-莱梅肖检验与布雷尔评分。8个模型报告了灵敏度、特异度、约登指数、F1分数等其他指标,3个模型进行了决策曲线分析,显示良好的临床应用潜力。
3.6 模型呈现
14个模型中9个(64.3%)提供了呈现格式细节,最常见为列线图(5个模型),其余分别为贝叶斯图与条件概率表、树状图与分类规则及预测表、列线图与模型公式、方程、模型公式。
3.7 偏倚风险与适用性总结
所有模型整体偏倚风险均为高。参与者领域:9个模型因采用横断面或回顾性研究数据被评为高风险,1个模型因排除基线前衰弱患者被评为高风险。预测因子领域:8个模型因未报告预测因子评估盲法被评为不确定风险,2个模型因预测因子临床不可用(如定量脑电图δ波功率、需额外评估的营养指导)被评为高风险,2个模型为低风险。结局领域:1个模型因将衰弱与衰弱前期合并定义为结局被评为高风险,6个模型因无法排除结局定义中包含的预测因子被评为高风险,3个模型因未充分报告评估者培训与评分者间信度被评为不确定风险,所有模型均未报告盲法结局评估,该项均为不确定风险。分析领域:11个模型因对预测因子与结局的数据收集过程与时间线描述不足被评为不确定风险;所有模型在该领域均为高风险,具体表现为10项研究事件数/变量比<10(样本量不足),12个含连续预测因子的模型中6个无明确依据地将连续变量分类,4个模型未将所有入组参与者纳入最终分析,1个模型明确排除缺失数据病例,11个模型未报告任何缺失数据处理方法,1个模型未评估区分度,6个模型缺乏任何形式的校准评估,无模型报告数据复杂性处理。适用性方面,7个模型为低风险,5个模型为高风险。参与者领域:5个模型适用性高风险,原因包括排除基线已衰弱个体、主动排除所有非衰弱患者、排除既往卒中史患者、女性比例极低(28.85%)。预测因子领域:1个模型因预测变量缺乏普适性为高风险。结局领域:1个模型因将衰弱前期纳入衰弱组为高风险。
3.8 荟萃分析结果
亚组分析显示建模方法对异质性有显著贡献。传统统计模型亚组(9个模型):合并AUC为0.82(95%CI:0.74-0.90,P<0.0001),区分能力良好,但组内异质性大(I2 =93.1%),可能归因于变量选择、人群特征或建模细节差异。机器学习模型亚组(4个模型):合并AUC为0.83(95%CI:0.73-0.94,P<0.05),与传统模型相当,组内异质性(I2 =64.2%)显著低于传统模型亚组,提示机器学习模型类别内性能更一致。整体荟萃分析(13个模型)显示总体区分能力良好,合并AUC为0.82(95%CI:0.76-0.88),但异质性极大(I2 =92.0%,P<0.0001),故采用随机效应模型。留一法敏感性分析显示合并AUC为0.81-0.85(95%CI>0.80),无主导性研究,排除某研究可使I2 从92%降至86.7%,AUC估计稳定性支持主要发现稳健。发表偏倚评估显示漏斗图不对称,埃格尔检验提示可能存在发表偏倚(t=-3.440,P=0.006),贝格检验未发现显著偏倚(z=0.000,P=1.000),结合埃格尔检验更高统计效力,不能排除发表偏倚可能性。
4. 讨论
4.1 核心预测因子及其老年医学意义
精准衰弱风险预测模型对老年卒中患者早期干预至关重要。本评价识别出5个常用老年预测因子:年龄、神经功能、日常生活活动能力、体力锻炼、营养状态(纳入频率不等同于预测强度,仅反映该领域常考虑因素)。年龄是最常纳入的预测因子(50%模型),其与衰弱的关联由炎性衰老、血管老化与免疫衰老解释,加剧脑损伤与不良结局。加速生物年龄(表型年龄)与缺血性卒中后短期及长期不良结局相关。≥80岁老年患者结局更差,包括功能状态更差、死亡率更高、生活质量更低。因此年龄应作为衰弱风险评估的基础组成部分,整合入临床预警系统以实现高危个体早期识别。神经功能缺损(常用美国国立卫生研究院卒中量表或改良Rankin量表评估)是关键预测因子,衰弱患者入院美国国立卫生研究院卒中量表评分显著更高。神经电生理指标(如经颅磁刺激皮质静息期)为卒中与衰弱的神经生理机制联系提供新见解(如皮质抑制增强、神经网络功能受损)。机制上,神经功能缺损主要通过限制体力活动加剧衰弱,导致肌肉减少症与心肺功能受损。日常生活活动能力下降反映功能状态,与卒中后恢复差相关,其与神经功能缺损形成活动减少、肌肉流失、衰弱加速的恶性循环。体力锻炼是可改变的保护因素,通过肌肉蛋白质合成与神经肌肉协调发挥作用,多项研究证实规律运动降低衰弱风险,有助于延缓早晚期肌肉减少症与衰弱。营养状态同样关键,低白蛋白与微量元素缺乏阻碍肌肉合成,吞咽困难增加营养不良风险,白蛋白是卒中后衰弱的独立预测因子(OR=0.89),营养风险(营养风险筛查2002)也是独立因素。重要的是,这五个预测因子并非独立作用,而是复杂交互(如营养干预与结构化运动结合可能最有效,最佳时机可能取决于基线神经功能与日常生活活动能力状态)。未来研究应通过设计良好的前瞻性研究探讨这些交互作用,开发更具靶向性的干预策略,超越单纯罗列变量,转向考察其独立与交互效应。
4.2 普遍存在的削弱效度的方学局限性
近年老年卒中患者衰弱风险预测模型研究激增,所有纳入研究均为近四年中国发表。PROBAST评估显示14个模型均为高偏倚风险,主要源于研究设计的方法学局限。尽管模型数量增多,无一达到可靠临床应用所需的方法学标准,无论报告的AUC值如何,均限制了任何特定模型预测的效用。参与者选择方面,仅3项为前瞻性设计,其余为横断面或回顾性设计,无法确立预测因子与衰弱结局的时间关系(这是真正预测的核心),未来研究必须优先考虑前瞻性队列(即使资源投入更大)。预测因子领域,2项研究为高风险:1项纳入需昂贵设备与专业操作人员的神经电生理指标,限制临床可用性;另1项将“营养指导”(基线数据收集后给予的干预)作为预测因子,本质上属于干预而非基线特征,可能导致外部验证时不可用,限制模型适用性,且依赖回忆的饮食数据易受记忆与社会期望偏倚影响,其作为预测因子的可靠性存疑,从根本上削弱模型预测性能。结局领域的概念重叠进一步损害效度,例如将衰弱与衰弱前期合并为复合终点,或使用衰弱评估工具本身的组成成分(如FRAIL量表中的多重共病)作为预测因子,导致循环论证,虚高性能。现有研究证实这些因素与衰弱密切相关,因此必须严格区分预测因子与结局定义以确保真实临床预测价值,研究人员需仔细审查衰弱评估工具,确保候选预测因子未嵌入结局定义,并通过敏感性分析探讨移除此类预测因子是否影响模型性能。分析领域亦存在方法学缺陷。连续变量处理不当是显著问题:12个含连续预测因子的模型中,6个无明确依据地将其分类(如将年龄分为60岁以下/以上),导致信息丢失、统计效力下降与潜在偏倚。未来研究应采用灵活方法(如限制性立方样条)模拟连续预测因子与结局间的潜在非线性关系。数据分析不完整是另一常见局限:4个模型未纳入所有参与者,1个剔除缺失数据记录,11个模型未报告任何缺失数据处理方法,这些方法可引入选择偏倚并损害模型普适性。多重插补是预测模型研究中处理缺失数据的推荐方法,未来工作应主动处理缺失数据,清晰记录其模式、程度与处理流程。变量选择方法存在显著局限:许多模型仅依赖单变量筛选,未考虑预测因子间相关性,可能保留虚假关联变量;即使是最小绝对收缩与选择算子回归等先进方法,在样本有限或预测因子相关时也可能选择无关变量。未来研究应采用多变量方法(如正则化技术或基于临床原理的预设模型)以增强稳健性。模型评估明显不足:1个模型未报告区分度指标,6个缺乏校准评估,所有模型均未考虑数据聚类结构。更令人担忧的是,仅1项研究提及外部验证但未提供结果,其余完全省略这一关键验证步骤。区分度与校准度是预测性能的必备组成部分,区分度区分高低危个体,校准度确保预测概率与观察结局一致。校准不足会导致错误风险估计,即使区分度看似足够也会损害临床效用。此外,缺乏外部验证则模型对新人群的普适性无法验证,单中心开发的模型可能反映特定场所因素而无法推广。未来研究应优先对现有模型进行外部验证,而非开发新模型,并在不同多中心队列中报告校准度与区分度。
4.3 荟萃分析结果:性能与异质性
本荟萃分析显示衰弱预测模型间存在显著异质性(I2 =92%),反映了纳入研究的方法学多样性。需明确的是,该合并AUC仅描述了不同模型报告区分性能的范围,并不代表对任何特定模型的荟萃分析验证(因预测因子与人群各异)。观察到的异质性源于研究设计、人群、衰弱定义、预测因子选择与建模技术的差异,这些因素相互关联,在聚合数据荟萃分析中难以拆解。亚组分析揭示了建模方法间的性能差异:传统统计模型与机器学习模型区分性能相似(AUC 0.82 vs 0.83),但机器学习模型异质性显著更低(I2 =64.2% vs 93.1%)。异质性从传统模型的93.1%大幅降至机器学习模型的64.2%,直接证明建模方法导致了观察到的性能变异。机器学习模型在不同研究中表现出更一致的性能,提示算法选择影响了跨人群与设置的性能变异性。机器学习算法可能因内置正则化与捕捉复杂变量关系的能力,在不同数据集上实现更一致的性能;传统模型则更易受变量选择与模型设定主观决策的影响,导致变异性增加。但此解释需谨慎,因机器学习模型数量少,未来研究应进一步探讨机器学习方法是否在不同环境中持续优于传统方法。此外,两个亚组内仍存在显著异质性,表明建模方法 alone 不能完全解释变异,其他因素(如人群特征、衰弱定义、预测因子选择)仍起重要作用。敏感性分析证实了合并估计的稳定性,移除任何单项研究均未实质性改变总体结论。埃格尔检验提示现有文献可能存在发表偏倚,这与敏感性分析并不矛盾:敏感性分析显示分析的已发表研究稳健,但发表偏倚的存在提示结果可能因缺失表现较差的研究而高估真实性能。显著的异质性源于不同人群与预测因子集开发的模型,以及原始研究中普遍存在的方法学局限(非前瞻性设计、样本量不足、预测因子处理不当等),因此合并AUC必须谨慎解释。虽提供了当前模型性能的广泛基准,但不支持推荐任何特定模型用于临床实践。未来研究应优先在两个方向努力:在独立人群中外部验证现有模型,以及在可能的情况下在相同数据集上直接比较其相对有效性。
4.4 优势与局限性
本研究的关键优势包括使用PROBAST进行全面方法学评估、识别一致性缺陷、综合最常纳入的预测因子,以及在异质性存在的情况下定量总结模型性能。局限性源于原始证据的质量与范围:所有模型均来自中国单中心研究,需更广泛验证;预测因子频率不代表预测强度;显著未解释的异质性持续存在,可能源于未报告的人群或衰弱定义差异。
4.5 对实践、政策与未来研究的启示
由于高偏倚风险与缺乏外部验证,目前尚无模型准备好常规临床应用。但五个核心预测因子(年龄、神经功能、日常生活活动能力、锻炼、营养)应作为老年综合评估的一部分常规评估,以指导早期支持性干预。对这些因素的评估可帮助临床医生识别不良结局高风险患者,并在开发更稳健、经外部验证的模型期间指导早期支持性干预。研究资助机构应优先考虑方法学质量而非模型增殖,要求使用PROBAST指导偏倚风险评估。应通过专项资助鼓励多中心前瞻性老龄化队列研究,此类投资对产生临床可用预测工具所需的高质量证据是必要的。外部验证现有模型必须优先于开发新模型,前瞻性队列设计对确立时间关系至关重要。方法学严谨性要求足够的样本量与预设计算、正确处理连续变量(如限制性立方样条)、缺失数据的多重插补、透明的变量选择。机器学习方法值得进一步研究,但需在同一数据集上直接比较。应考察核心预测因子间的交互作用,并避免概念重叠(预测因子作为结局定义的一部分)。这些建议直接源自本评价,为推进该领域开发临床有用的卒中后衰弱预测工具提供了具体可行的方向。
5. 结论
本系统评价揭示了老年卒中患者衰弱预测模型的预测潜力与方法学稳健性之间存在显著脱节。合并区分能力中等,但持续的高偏倚风险削弱了临床适用性。研究人员未推荐任何特定模型,而是梳理了当前证据格局,识别了关键方法学缺陷(如非前瞻性设计、样本量不足),并为未来研究提供了方向。为解决这些问题,该领域必须优先考虑方法学严谨性而非模型增殖。未来研究应遵循PROBAST与个体预后或诊断多变量预测模型透明报告(TRIPOD)指南,并聚焦于:(1)前瞻性多中心老龄化队列设计;(2)足够的样本量与预设计算;(3)正确处理连续变量与缺失数据;(4)稳健的内部与 外 部 验 证 。
打赏