基于EHR集成LLM智能体的前列腺癌患者个性化教育：一项改善医患沟通与健康信心的可行性研究

时间：2025年12月19日

来源：npj Digital Medicine

编辑推荐：

本研究针对临床工作负担导致癌症患者教育支持不足的问题，开发并评估了集成电子健康记录（EHR）的大型语言模型（LLM）智能体MedEduChat，旨在提升前列腺癌患者的健康教育水平。研究通过对15名非转移性前列腺癌患者和3名临床医生的混合方法评估，发现MedEduChat具有高可用性（UMUX=83.7/100），并能显著提升患者的健康信心评分（HCS从9.9升至13.9，p<0.05）。临床医生评价其回答具有高正确性（2.9/3）、完整性（2.7/3）和安全性（2.7/3），表明LLM智能体在提供个性化、实时患者教育方面具有重要应用潜力，为减轻临床负担、改善患者参与度提供了新路径。

在当今医疗资源日益紧张的背景下，癌症患者常常面临教育支持不足的困境。由于临床医生工作繁重，患者难以及时获得个性化的专业指导，这直接影响了他们对疾病的理解和治疗决策的参与度。前列腺癌作为常见的恶性肿瘤，患者往往在诊断后需要快速了解复杂的治疗选项、副作用及预后信息，但传统的教育材料多为静态内容，难以满足个体化需求。这种教育缺失不仅增加了患者的心理负担，也可能影响治疗依从性和最终疗效。

为解决这一问题，研究人员开发了MedEduChat——一个集成电子健康记录（EHR）的大型语言模型（LLM）智能体，专门用于提供个性化的前列腺癌患者教育。这项研究发表在《npj Digital Medicine》期刊，旨在探索人工智能如何通过自然语言交互增强患者教育，同时减轻临床团队的工作负担。

研究团队采用了混合方法设计，招募了15名非转移性前列腺癌患者和3名临床医生参与评估。MedEduChat基于GPT-4o模型构建，通过HIPAA兼容的Azure端点安全访问Mayo Clinic的EHR系统，包括Epic电子病历和Aria肿瘤信息系统。系统采用封闭领域设计，仅提供经过事实核查的医学信息，重点覆盖五个核心教育领域：诊断理解、治疗选项、副作用、生活方式管理和随访护理。关键技术方法包括：（1）基于关键词的数据检索功能，从EHR中提取患者特定信息；（2）5E教育模型（参与、探索、解释、阐述、评估）的结构化对话流程；（3）实时安全审核机制，对敏感查询进行分级处理；（4）记忆功能支持多轮个性化交互。患者与系统交互20-30分钟后完成前后测评估，临床医生则对85组患者-智能体对话进行多维度评分。

患者可用性研究描述性结果

研究发现，使用MedEduChat后患者的健康信心评分（HCS）从9.9显著提升至13.9（总分16），平均差异为4.0（95% CI[1.1, 6.9]），Wilcoxon符号秩检验证实这一改善具有统计学意义（W=9.5, p<0.05）。系统可用性得分（UMUX）达83.7/100，表明患者接受度良好。不过，部分患者提到某些医学术语（如"死亡"）会引发焦虑，提示信息传递方式需进一步优化。

临床专业人员评分结果

三位临床医生对MedEduChat回答的评价显示，其在正确性（2.9/3）、完整性（2.7/3）和安全性（2.7/3）方面表现优异，个性化程度得分为2.3/3。评分者间一致性最高的是"回答正确性"（Krippendorff Alpha=0.84），而"患者中心响应"等主观维度一致性较低（0.40），反映了个体化评估的挑战。

教育范围与边界

MedEduChat被设计为半结构化交互，但部分患者会提出超出预设范围的问题（如"我的生存率是多少？"）。对此，系统会明确说明能力限制，并建议咨询医疗团队。有趣的是，患者大多能接受这些限制，甚至有参与者认为这种"把关"有助于缓解等待答案的焦虑。

遗忘与再学习过程

三名患者经历了"遗忘错误假设-重新学习"的过程。例如，一名患者询问Zanubrutinib（一种淋巴瘤药物）是否对前列腺癌有效，MedEduChat解释了该药物的适用范畴与前列腺癌的差异，帮助患者修正了认知。这种互动不仅调整了期望，还通过提供可靠信息增强了患者的掌控感。

信息传递

临床医生指出，EHR数据的混乱性和不完整性是主要挑战。由于不同医生的记录方式各异，LLM在总结非结构化数据时可能传播错误信息。此外，系统目前仅支持文本交互，无法处理影像等多媒体资料，限制了其在癌症教育中的全面应用。

研究结论强调，MedEduChat作为首个EHR集成的LLM教育智能体，成功证明了其在提升前列腺癌患者教育质量和健康信心方面的潜力。通过将社会认知理论（SCT）与共享决策（SDM）框架结合，系统促进了患者的主动学习与参与。然而，研究也存在局限性，如样本主要为高龄、高学历白人群体，且缺乏对照组比较。未来需要通过随机对照试验在更广泛人群中验证其效果，并进一步优化数据检索精度、多媒体支持和安全监管机制。

风险类别

解释

决策模糊性

响应不确定性：LLM智能体可能生成含糊或内部不一致的答案，特别是在处理罕见治疗副作用或不典型实验室结果时，导致指导缺乏清晰度或可操作性。

决策权威：当存在多个循证选项时，LLM智能体可能缺乏明确的推荐理由，导致患者认为LLM指导是武断的而非个性化的。

远程或未监控的超范围问题：没有实时监督，超范围的患者问题可能收到通用免责声明，而不是被正确分诊到适当的临床服务。

个性化响应

个性化限制：LLM聊天机器人可能基于训练数据中嵌入的人口统计特征过度泛化，提供适合群体平均水平而非个体情况的教育。

底层不可靠EHR数据

不完整或延迟的患者EHR数据可能直接导致LLM聊天机器人传递错误的临床信息。

不正确的EHR数据，如分期、实验室结果（即PSA值）或药物列表，可能生成冲突的剂量提醒或随访计划。