精神分裂症谱系障碍的诊断性数字表型分析：一项系统性综述

时间：2025年12月3日

来源：npj Digital Medicine

编辑推荐：

为解决精神分裂症谱系障碍（SSD）诊断挑战，研究人员开展了首项系统性综述，分析数字表型技术在SSD中的诊断和预测价值。研究综合142项研究（n=6,294）发现，认知表现领域差异效应最大（Hedges' g≈1.20），但各领域异质性高（I2>70%），与PANSS（阳性与阴性症状量表）相关性研究稀缺（<5%），复发预测模型（AUC最高达0.8）缺乏标准化。该研究为数字表型技术在SSD临床应用提供了重要证据基础。

在精神科诊疗中，医生们长期面临一个棘手难题：如何准确捕捉精神分裂症谱系障碍（Schizophrenia-Spectrum Disorders, SSD）患者瞬息万变的症状？传统依赖主观临床访谈和患者自述的评估方式，犹如通过钥匙孔观察整个房间，难以全面反映患者在真实生活中的状态。更令人困扰的是，SSD患者表现出极高的异质性——有的以幻觉妄想等阳性症状为主，有的则表现为社交退缩、情感淡漠等阴性症状，同时还普遍存在注意力、记忆力等认知功能损害。这种多样性使得诊断过程充满挑战，往往导致治疗延迟，最终影响患者预后。

正是在这样的背景下，数字表型（Digital Phenotyping）技术应运而生。这项新兴技术通过智能手机、可穿戴设备等数字工具，持续收集个体在自然生活环境中的行为、生理和认知数据，为精神健康评估带来了革命性可能。想象一下，患者的手机可以自动记录其活动轨迹、社交频率甚至睡眠模式，智能手表能监测心率变异性等生理指标——这些客观、连续的数据有望弥补传统临床评估的不足。然而，尽管数字表型在抑郁症等领域已取得显著进展，其在SSD中的应用价值究竟如何？不同技术方法孰优孰劣？能否真正预测病情复发？这些问题至今缺乏系统答案。

为解答这些疑问，由Ivan Vecchio、Lucas Mifsud、Sofia Castro e Almeida和Johannes Passecker组成的研究团队在《npj Digital Medicine》上发表了首项系统性综述，对过去20年间该领域的研究进行了全面梳理与分析。研究人员遵循PRISMA（系统综述和荟萃分析优先报告条目）指南，检索了PubMed、PsycINFO、IEEE Xplore和ACM Digital Library四大专业数据库，最终纳入142项符合标准的研究，涉及6,294名参与者。他们采用逆方差加权法计算汇总均值，使用Hedges' g计算效应大小，并通过随机效应模型进行荟萃分析，同时利用metafor包进行异质性分析（计算I²统计量）。针对复发预测研究，还专门采用PROBAST+AI框架进行偏倚风险评估。

研究结果

纳入研究的一般特征

时间跨度分析显示，91.5%的研究集中在最近十年（2015-2024年），表明该领域呈现爆发式增长。在6,034名SSD患者中，男性占比显著高于女性（53.3% vs 46.2%），年龄分布呈现双峰特点——青少年晚期（17-19岁）和三十岁后期（35-40岁）是两个主要参与年龄段，而二十多岁和50岁以上人群代表性不足。值得注意的是，仅半数研究报告了药物治疗信息，其中仅28.3%提供了氯丙嗪（Chlorpromazine, CPZ）等效剂量，且每日剂量差异巨大（95mg至770mg），反映出临床用药的个体化差异。

数字表型方法与模态

研究团队将数字表型技术分为主动评估（需要患者主动参与，如自我报告、认知任务）和被动评估（自动收集传感器数据）两大类。分析发现，57项研究使用主动评估，55项使用被动评估，仅30项（约20%）结合两种方法。智能手机是最常用工具，特别在主动评估中占比61.4%，主要用于认知任务和生态瞬时评估（Ecological Momentary Assessment, EMA）。可穿戴设备则在被动评估中占主导（45.5%），用于监测运动、心率和睡眠等指标。此外，眼动追踪、社交媒体分析和计算机化测试等技术也各具特色。

数字表型指标与临床相关性

为识别最具鉴别力的数字指标，研究比较了六大症状领域的效果大小。认知表现领域表现出最强的组间差异（Hedges' g=1.171），特别是情绪识别和注意力指标；行为与活动领域次之（g=0.620），如通过腕带加速度计测量的活动模式；生理信号领域效果中等（g=0.567），其中眼动指标（如扫视速度）差异显著。相比之下，数字使用（g=0.375）、心理状态（g=0.342）和睡眠与昼夜节律（g=0.330）领域效果较弱。按技术类型分析，计算机化测试效果最佳（g=1.17），眼动追踪次之（g=0.635），而智能手机、可穿戴设备和社交媒体分析效果相当（约0.4）。然而，异质性分析揭示大多数领域存在高度变异，特别是认知表现领域I²高达93%，表明研究方法存在显著差异。

与PANSS评分的比较

令人意外的是，仅7项研究（占全部研究的4.9%）报告了数字指标与PANSS评分的相关性，且这些比较仅限于基线评估。计算机化测试显示出最稳定的相关性，例如模拟购物任务完成时间与PANSS总分相关性较高。Laroi等（2010）研究的生态效度值得关注，其通过日常活动模拟有效反映了认知缺陷对现实功能的影响。然而，63%使用PANSS的研究未报告评分者资质或培训情况，仅一项研究报告了评分者间信度，这严重限制了相关性的解释力度。

精神病复发的预测性能

在复发预测方面，机器学习模型表现参差不齐。使用社交媒体数据的早期研究预测准确性较低（ROC-AUC=0.58），而整合多领域数据的研究表现更优，如Zlatintsi等（2022）和Fekas等（2023）报告的PR-AUC分别达0.77和0.745。Henson等（2021）通过多数据流整合获得了最高ROC-AUC（0.883），其模型是唯一包含认知表现数据的预测模型。然而，各研究对“复发”的定义存在显著差异（如住院、PANSS评分增加等），且缺乏外部验证数据集，直接比较极为困难。

偏倚风险评估

质量评估发现，结果平衡报告相对较好（89.4%研究同时报告正负结果），但样本量合理性（94.4%未提供依据）、参与者依从性（21.8%未报告）和缺失数据处理（14.1%未描述）等方面存在明显不足。复发预测研究的PROBAST+AI评估显示，虽然缺失数据处理和模型评估方法描述较好，但所有研究均缺乏外部验证，且未涉及模型公平性问题，这些缺陷严重限制了模型的临床转化潜力。

研究结论与讨论

这项系统性综述揭示了数字表型在SSD评估中的巨大潜力与当前局限。认知和生理指标的强劲表现与SSD的神经认知缺陷理论高度吻合，而数字评估在情绪识别和注意力等领域的敏感性尤为突出，这些领域已知与SSD患者的功能预后密切相关。

然而，数字指标与PANSS评分相关性较弱这一发现值得深入思考。这可能反映了PANSS量表本身在评估客观认知功能方面的局限性，特别是在标准三因子模型中。这支持了学界对使用PANSS作为数字认知功能指标“金标准”的质疑，提示未来验证研究需要更全面的功能评估工具。

复发预测模型的性能差异凸显了这一任务的复杂性。成功的预测模型往往采用多模态数据整合策略，表明单一数据流难以捕捉SSD复发的多维本质。Henson等研究的成功经验表明，包含认知表现数据的综合模型可能更具预测力。但“复发”定义的标准化、时间事件分析和误报率报告等实际问题，仍是临床转化前必须解决的挑战。

从技术角度看，不同数字表型方法各有利弊。智能手机普及率高、能整合主动被动数据，但依赖自我报告在认知受损患者中存在局限；可穿戴设备提供连续客观监测，但传感器精度和算法透明度差异大；眼动追踪提供认知处理客观指标，但传统上受限于实验室环境；计算机化测试标准化程度高，但需要更严格的移动环境验证；社交媒体分析虽能洞察社交行为，但伦理隐私问题突出。

方法学异质性是本领域最突出的问题之一。睡眠架构测量异质性较低（I²=5.4%）的成功案例表明，通过测量工具、环境设置和方法的标准化，完全可以提高结果的可比性和可重复性。这提示未来研究迫切需要建立统一协议和数据元素标准。

综上所述，数字表型有望通过提供客观、连续、生态效度高的测量指标，弥补SSD传统评估的不足。然而，要实现这一潜力，未来研究必须优先解决标准化、样本多样性、方法学严谨性、多模态数据整合和纵向验证等关键问题。通过研究人员、临床医生、患者和技术开发者的跨学科合作，数字表型技术有望在SSD的早期识别、个性化治疗和复发预测方面发挥重要作用，最终改善患者的生活质量。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部