目的:人工智能(Artificial Intelligence,AI)可利用患者生成健康数据(Patient-Generated Health Data,PGHD)支持预护理流程,如分诊、症状评估和病史采集。既有系统综述分别考察了人工智能临床决策支持、患者生成
广告
X
目的:人工智能(Artificial Intelligence,AI)可利用患者生成健康数据(Patient-Generated Health Data,PGHD)支持预护理流程,如分诊、症状评估和病史采集。既有系统综述分别考察了人工智能临床决策支持、患者生成健康数据应用以及面向特定数据模态的人工智能,但尚无研究聚焦其在预护理中的交叉领域。本研究旨在描绘所采用的人工智能方法与患者生成健康数据模态,综合技术、临床、运营、用户体验与公平性等结局领域的研究结果,并识别部署障碍及报告缺口。
方法:本系统综述依据PRISMA 2020声明开展,并预先在PROSPERO注册(CRD420251134235)。研究人员检索了PubMed、MEDLINE和Web of Science数据库中发表于2020年1月至2025年6月的研究,纳入评估利用患者生成健康数据支持择期医疗预护理流程之人工智能应用的文献。偏倚风险采用与各研究设计相适配的经验证工具进行评估。鉴于各结局领域存在异质性,采用叙述性综合进行分析。
结果:共纳入21项研究,所分析的患者生成健康数据包括自由文本(38%)、问卷(33%)、语音记录(14%)、可穿戴设备数据(10%)和图像(5%)。多数研究采用经典机器学习(Machine Learning,ML)(67%),43%的研究涉及深度学习,且大语言模型(Large Language Models,LLMs)于近期开始出现。模型性能显示出一定前景,曲线下面积(Area Under the Curve,AUC)范围为0.64–0.98,中位数为0.78。然而,该证据存在严重局限:95%的研究具有较高偏倚风险,仅6%的评估进行了外部验证,仅1项研究测量了临床结局。仅14%的研究评估了公平性。没有任何研究证明患者获益,也没有研究描述常规临床部署。
文章指出,受限于临床接触时间,医疗人员常常难以在有限会诊过程中完整收集、整合并解释与患者相关的信息。预护理流程主要包括症状评估、病史采集、分诊、筛查和风险评估,其核心功能是在正式就诊前完成信息整理,从而改善临床准备度以及医患沟通质量。随着数字健康技术的发展,患者可通过电子问卷、患者门户、可穿戴设备和语音记录应用远程提交健康信息,推动患者生成健康数据(Patient-Generated Health Data,PGHD)在医疗前端流程中的应用拓展。文章认为,医疗专业人员总体上认可PGHD的潜在价值,因为其有助于弥补就诊前的信息缺口;但若要在大规模场景下将PGHD转化为可执行的预护理支持,往往需要借助人工智能(Artificial Intelligence,AI)进行自动化分析。尽管如此,临床采纳仍受到数据可靠性、安全性及工作流整合等问题的限制,且对下游临床影响的证据仍较缺乏。作者据此提出研究必要性:既往综述分别讨论了AI临床决策支持、PGHD应用以及特定PGHD模态上的AI方法,但尚未系统整合“基于PGHD的AI支持择期医疗预护理流程”这一交叉领域。因此,本综述聚焦于非紧急、计划性医疗中的预护理应用,目标包括描绘AI方法与PGHD模态分布、综合多维结局,以及识别部署障碍与研究设计和报告缺口。
研究人员在信息专家协助下构建检索策略,并应用于PubMed、MEDLINE和Web of Science Core Collection。检索式围绕三个概念模块展开:AI、PGHD及其输入模态,以及包括分诊、症状评估和病史采集在内的预护理流程;同时结合医学主题词与自由词,并通过布尔逻辑AND连接。时间限定为2020年1月至2025年6月,旨在捕捉包括Transformer架构在内的当代AI方法及其临床应用趋势。
针对不同研究设计,作者采用适配的验证工具进行偏倚风险评估。19项预测模型研究使用PROBAST(Prediction model Risk Of Bias ASsessment Tool),1项非随机干预研究使用ROBINS-I(Risk Of Bias In Non-randomized Studies of Interventions),1项将AI输出与临床参考标准比较的研究采用经调整的QUADAS-2(Quality Assessment of Diagnostic Accuracy Studies),另1项观察性队列研究使用Newcastle-Ottawa Scale。各领域风险分为低、高或不明确,总体风险取最高等级。该设计反映出作者力求在异质研究设计中实现相对一致的质量评价。
21项研究共涉及5类PGHD模态。问卷和调查数据较常用于症状评估、风险预测及筛查;自由文本和患者门户消息使用最广,主要借助自然语言处理(Natural Language Processing,NLP)从非结构化患者沟通中提取临床信息;语音/音频记录多用于神经系统功能评估;可穿戴传感器数据来自商业设备;另有1项研究使用智能手机采集图像。仅1项研究整合了多种PGHD模态。视频数据、被动/环境感知数据以及社会决定因素数据未被纳入,且多模态融合能否提高性能尚未得到检验。
4.2. 人工智能方法与算法
作者依据既有分类法,将算法分为经典机器学习、深度学习和大语言模型(Large Language Models,LLMs)三类。经典机器学习最常见,占67%;深度学习出现在43%的研究中;部分研究同时使用多类方法。常见经典算法包括随机森林、支持向量机(Support Vector Machine,SVM)、逻辑回归和朴素贝叶斯。深度学习中以卷积神经网络(Convolutional Neural Networks,CNNs)和BERT变体较常见。多数研究并非只测试单一算法,而是比较多个模型的表现。监督学习占主导地位,仅1项研究采用无监督方法。预训练模型在少数研究中出现,其中包括LLM应用。作者还指出,将LLM单列为分析类别,主要是由于其作为基础模型(foundation model)的使用方式及其特有评估挑战,如幻觉、输出波动和基准缺失。
在监管与伦理方面,纳入研究主要停留于程序性合规报告,如伦理审批、知情同意和数据匿名化,而缺乏对实质性监管路径的讨论。虽然多数研究报告了伦理批准,但知情同意和匿名化的报告比例并不高,且有部分研究完全未说明监管背景。文章指出,可信临床AI的国际共识建议明确适用法规,包括美国食品药品监督管理局(Food and Drug Administration,FDA)软件作为医疗器械(Software as a Medical Device,SaMD)路径和欧盟医疗器械法规(Medical Device Regulation,MDR)要求,同时应建立上市后监测、风险管理与技术文档。然而,本综述中没有研究涉及FDA批准、CE标志、上市后监测或相关技术文档。另有相当比例研究未引用任何报告规范,如TRIPOD、STROBE或FUTURE-AI,从而限制了复现性与证据整合。