潜在因子评分与总分评分筛查重度抑郁症的准确性比较：一项个体参与者数据荟萃分析

时间：2026年5月31日

来源：Journal of Affective Disorders

编辑推荐：

**摘要** **背景** 与总分相比，潜在因子评分（latent factor scoring）可能提供更精确的分数估计，但这尚未在医院焦虑抑郁量表（Hospital Anxiety and Depression Scale， HADS）中得到评估。研究

**摘要**
**背景** 与总分相比，潜在因子评分（latent factor scoring）可能提供更精确的分数估计，但这尚未在医院焦虑抑郁量表（Hospital Anxiety and Depression Scale， HADS）中得到评估。研究人员调查了潜在因子评分是否能提高HADS抑郁筛查的准确性。
**方法** 研究人员使用了一个HADS筛查准确性个体参与者数据荟萃分析（individual participant data meta-analysis， IPDMA）数据库。共纳入42项研究（7982名参与者；每项研究12至1143人），均采用半结构化访谈作为诊断参考标准。数据库被随机分为校准集和验证集。在校准集中，研究人员使用单因子模型（14项HADS总量表[HADS-T]，7项抑郁分量表[HADS-D]）以及HADS-T双因子和双因子（一般因子和两个特异因子）模型来估计潜在分数。为每种方法估计了使敏感性（sensitivity）和特异性（specificity）总和最大化的临界值。在验证集中，研究人员比较了潜在变量方法与HADS-D总分的筛查准确性。此过程重复了1000次，以估计参数的95%置信区间（confidence interval， CI）。
**结果** 在剔除验证性因子分析（confirmatory factor analysis， CFA）（N = 304）或IPDMA（N = 31）中模型失败的迭代后，汇总结果显示，所有因子评分与总分比较的敏感性、特异性及二者总和之差的置信区间均包含0。在受试者工作特征曲线（receiver operating characteristic curve， ROC曲线）下面积（area under the curve， AUC）方面，双因子和双因子模型表现出统计学显著但微小的优势（0.01， 95% CI [0.01, 0.02]； 0.02， 95% CI [0.01, 0.02]）。敏感性分析证实了上述发现。
**结论** 与总分相比，潜在因子评分并未显著提高HADS筛查准确性。在应用情境中，由于总分方法简便易行，可能更受青睐。

**论文解读：潜在因子评分与总分评分在HADS抑郁筛查准确性中的比较**

抑郁是全球范围内导致功能障碍和疾病负担的主要原因之一，尤其在医院等非精神科设置中，准确识别抑郁患者至关重要。医院焦虑抑郁量表（Hospital Anxiety and Depression Scale， HADS）因其简便性被广泛用于此类筛查。传统的评分方法是将各条目得分相加，即总分评分。然而，理论上，基于心理测量模型的潜在因子评分（latent factor scoring）能通过加权条目反应来更精确地估计潜在抑郁特质，可能提供更高的筛查准确性。目前，尚无研究直接比较HADS两种评分方法在筛查重度抑郁症（Major Depressive Disorder， MDD）中的表现。因此，本研究的核心问题是：复杂的潜在因子评分方法是否能在实践中超越简单总分评分，从而值得投入更多资源进行实施？

本研究是一项基于个体参与者数据的荟萃分析（Individual Participant Data Meta-Analysis， IPDMA），结果发表在《Journal of Affective Disorders》。研究团队利用了先前建立的一个HADS-D筛查准确性IPDMA数据库，旨在系统地评估潜在因子评分与传统总分评分在检测MDD方面的准确性差异。

研究人员主要采用了以下关键技术与方法进行二次分析：首先，从原始IPDMA数据库中筛选出42项使用半结构化访谈（如SCID）作为诊断金标准的研究，共纳入7982名参与者数据，这些数据包含全部14个HADS条目的得分。其次，为稳定评估并避免数据重用偏差，研究采用了蒙特卡洛交叉验证策略。对于每一项分析，数据被随机、等比例地划分为校准集和验证集，并重复此随机划分过程1000次。在校准集中，研究者拟合了四种潜在因子模型：HADS-D单因子模型、HADS-T单因子模型、HADS-T双因子模型（焦虑与抑郁因子相关）以及HADS-T双因子模型（包含一个一般因子和两个特异因子）。所有模型均包含一个方法因子以控制正向条目措辞的影响。随后，基于各模型生成的因子分数，通过双变量模型确定使敏感性与特异性总和最大的最优临界值。最后，在对应的验证集中，评估并比较了各因子评分方法与HADS-D总分法（临界值≥7）的筛查准确性，主要比较指标为敏感性、特异性及其总和，以及ROC曲线下面积（AUC）。

研究结果显示，尽管在模型拟合方面，HADS-T双因子和双因子模型的拟合指数优于单因子模型，但这些复杂模型在多次迭代中面临显著的收敛问题。在筛查准确性方面，与传统HADS-D总分法相比，所有潜在因子评分方法的敏感性、特异性及二者总和之差的95%置信区间均包含零值，表明差异无统计学意义。唯一具有统计学显著性的差异体现在AUC上，但其提升幅度（0.01至0.02）微乎其微，远低于预设的临床意义阈值（0.05）。这意味着，尽管双因子和双因子模型在理论上能更精细地刻画抑郁结构，但其产生的复合评分在实际分类性能上并未超越简单的7条目总分。

研究人员对结果进行了讨论。他们认为，潜在因子评分未能带来实质性优势的可能原因包括：HADS条目间的因子载荷相对同质，限制了加权带来的潜在增益；复杂模型（如双因子模型）的估计误差可能抵消其理论优势；且因子权重依赖于特定样本，在不同研究间可能存在异质性。这一发现与先前使用患者健康问卷-9（Patient Health Questionnaire-9， PHQ-9）的类似IPDMA研究结论一致，表明在抑郁筛查中，潜在因子评分相较于总分评分的优势可能非常有限。研究者指出，鉴于总分方法的简洁性、易用性以及相当的准确性，在类似于本研究纳入研究的设置中，HADS-D总分评分仍是首选。未来的研究应更注重基于外部效度证据（如与诊断金标准的一致性）来优化量表条目或开发新的评估工具，而非仅仅追求复杂的测量模型。

**研究结论部分翻译**
研究结论部分指出，因子评分在使用HADS检测抑郁方面，相比总分评分方法展现出有限的临床优势。考虑到其简便性、可行性以及相似的准确性，在类似于本研究IPDMA中纳入研究的设置里，总分评分方法可能更受青睐。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部