潜在因子评分与总分评分筛查重度抑郁症的准确性比较:一项个体参与者数据荟萃分析

时间:2026年5月31日
来源:Journal of Affective Disorders

编辑推荐:

**摘要** **背景** 与总分相比,潜在因子评分(latent factor scoring)可能提供更精确的分数估计,但这尚未在医院焦虑抑郁量表(Hospital Anxiety and Depression Scale, HADS)中得到评估。研究

广告
   X   

**摘要**
**背景** 与总分相比,潜在因子评分(latent factor scoring)可能提供更精确的分数估计,但这尚未在医院焦虑抑郁量表(Hospital Anxiety and Depression Scale, HADS)中得到评估。研究人员调查了潜在因子评分是否能提高HADS抑郁筛查的准确性。
**方法** 研究人员使用了一个HADS筛查准确性个体参与者数据荟萃分析(individual participant data meta-analysis, IPDMA)数据库。共纳入42项研究(7982名参与者;每项研究12至1143人),均采用半结构化访谈作为诊断参考标准。数据库被随机分为校准集和验证集。在校准集中,研究人员使用单因子模型(14项HADS总量表[HADS-T],7项抑郁分量表[HADS-D])以及HADS-T双因子和双因子(一般因子和两个特异因子)模型来估计潜在分数。为每种方法估计了使敏感性(sensitivity)和特异性(specificity)总和最大化的临界值。在验证集中,研究人员比较了潜在变量方法与HADS-D总分的筛查准确性。此过程重复了1000次,以估计参数的95%置信区间(confidence interval, CI)。
**结果** 在剔除验证性因子分析(confirmatory factor analysis, CFA)(N = 304)或IPDMA(N = 31)中模型失败的迭代后,汇总结果显示,所有因子评分与总分比较的敏感性、特异性及二者总和之差的置信区间均包含0。在受试者工作特征曲线(receiver operating characteristic curve, ROC曲线)下面积(area under the curve, AUC)方面,双因子和双因子模型表现出统计学显著但微小的优势(0.01, 95% CI [0.01, 0.02]; 0.02, 95% CI [0.01, 0.02])。敏感性分析证实了上述发现。
**结论** 与总分相比,潜在因子评分并未显著提高HADS筛查准确性。在应用情境中,由于总分方法简便易行,可能更受青睐。
**论文解读:潜在因子评分与总分评分在HADS抑郁筛查准确性中的比较**

抑郁是全球范围内导致功能障碍和疾病负担的主要原因之一,尤其在医院等非精神科设置中,准确识别抑郁患者至关重要。医院焦虑抑郁量表(Hospital Anxiety and Depression Scale, HADS)因其简便性被广泛用于此类筛查。传统的评分方法是将各条目得分相加,即总分评分。然而,理论上,基于心理测量模型的潜在因子评分(latent factor scoring)能通过加权条目反应来更精确地估计潜在抑郁特质,可能提供更高的筛查准确性。目前,尚无研究直接比较HADS两种评分方法在筛查重度抑郁症(Major Depressive Disorder, MDD)中的表现。因此,本研究的核心问题是:复杂的潜在因子评分方法是否能在实践中超越简单总分评分,从而值得投入更多资源进行实施?

本研究是一项基于个体参与者数据的荟萃分析(Individual Participant Data Meta-Analysis, IPDMA),结果发表在《Journal of Affective Disorders》。研究团队利用了先前建立的一个HADS-D筛查准确性IPDMA数据库,旨在系统地评估潜在因子评分与传统总分评分在检测MDD方面的准确性差异。

研究人员主要采用了以下关键技术与方法进行二次分析:首先,从原始IPDMA数据库中筛选出42项使用半结构化访谈(如SCID)作为诊断金标准的研究,共纳入7982名参与者数据,这些数据包含全部14个HADS条目的得分。其次,为稳定评估并避免数据重用偏差,研究采用了蒙特卡洛交叉验证策略。对于每一项分析,数据被随机、等比例地划分为校准集和验证集,并重复此随机划分过程1000次。在校准集中,研究者拟合了四种潜在因子模型:HADS-D单因子模型、HADS-T单因子模型、HADS-T双因子模型(焦虑与抑郁因子相关)以及HADS-T双因子模型(包含一个一般因子和两个特异因子)。所有模型均包含一个方法因子以控制正向条目措辞的影响。随后,基于各模型生成的因子分数,通过双变量模型确定使敏感性与特异性总和最大的最优临界值。最后,在对应的验证集中,评估并比较了各因子评分方法与HADS-D总分法(临界值≥7)的筛查准确性,主要比较指标为敏感性、特异性及其总和,以及ROC曲线下面积(AUC)。

研究结果显示,尽管在模型拟合方面,HADS-T双因子和双因子模型的拟合指数优于单因子模型,但这些复杂模型在多次迭代中面临显著的收敛问题。在筛查准确性方面,与传统HADS-D总分法相比,所有潜在因子评分方法的敏感性、特异性及二者总和之差的95%置信区间均包含零值,表明差异无统计学意义。唯一具有统计学显著性的差异体现在AUC上,但其提升幅度(0.01至0.02)微乎其微,远低于预设的临床意义阈值(0.05)。这意味着,尽管双因子和双因子模型在理论上能更精细地刻画抑郁结构,但其产生的复合评分在实际分类性能上并未超越简单的7条目总分。

研究人员对结果进行了讨论。他们认为,潜在因子评分未能带来实质性优势的可能原因包括:HADS条目间的因子载荷相对同质,限制了加权带来的潜在增益;复杂模型(如双因子模型)的估计误差可能抵消其理论优势;且因子权重依赖于特定样本,在不同研究间可能存在异质性。这一发现与先前使用患者健康问卷-9(Patient Health Questionnaire-9, PHQ-9)的类似IPDMA研究结论一致,表明在抑郁筛查中,潜在因子评分相较于总分评分的优势可能非常有限。研究者指出,鉴于总分方法的简洁性、易用性以及相当的准确性,在类似于本研究纳入研究的设置中,HADS-D总分评分仍是首选。未来的研究应更注重基于外部效度证据(如与诊断金标准的一致性)来优化量表条目或开发新的评估工具,而非仅仅追求复杂的测量模型。

**研究结论部分翻译**
研究结论部分指出,因子评分在使用HADS检测抑郁方面,相比总分评分方法展现出有限的临床优势。考虑到其简便性、可行性以及相似的准确性,在类似于本研究IPDMA中纳入研究的设置里,总分评分方法可能更受青睐。

生物通微信公众号
微信
新浪微博


生物通 版权所有