心力衰竭(Heart Failure, HF)护理涉及从疑似疾病、诊断确认、表型分析、指南导向的药物治疗(Guideline-Directed Medical Therapy, GDMT)、器械考虑、恶化HF到过渡护理及晚期HF规划的一系列重复决策。大型语言模型(Large Language Models, LLMs)可能通过合成电子健康记录(Electronic Health Record, EHR)中的结构和非结构化数据、检索当前证据并呈现患者特异性推理来支持这项工作。然而,针对HF特定的LLM临床决策支持(Clinical Decision Support, CDS)系统不应被框定为单一的自主智能体。研究人员提出了“心力衰竭智能体”(Heart Failure Intelligent Agent, HF-IA)作为模块化、风险分级的概念框架,其中智能体功能具有不同的数据需求、参考标准、风险水平和验证途径。研究人员认为,评估应结合节点级测试、纵向病例重演、无声前瞻性验证及部署后监测。该框架为概念性,并未声称临床有效性;其价值在于阐明未来LLM赋能的HF决策支持的设计、评估和治理要求。心力衰竭(HF)依然是全球发病、住院和卫生系统负担的主要原因。当代HF护理并非单一决策,而是在不确定性下进行的纵向决策序列。临床医生必须整合症状、体征、利钠肽、肾功能、钾、心电图、超声心动图、缺血评估、器械数据、合并症、患者偏好及本地资源限制。2022年美国心脏协会/美国心脏病学会/心力衰竭学会(AHA/ACC/HFSA)指南和2023年欧洲心脏病学会(ESC)重点更新展示了HF推荐如何快速演变,包括药物治疗、合并症管理、器械治疗、晚期HF转诊及护理协调。复杂性始于HF确诊之前。呼吸困难和水肿可能反映HF、慢性肺病、肾病、贫血、肥胖、静脉疾病、肺高血压、药物影响或混合综合征。确诊后,临床医生必须识别表型和病因,因为射血分数降低的心力衰竭(HF with reduced Ejection Fraction, HFrEF)、射血分数轻度降低的心力衰竭(HF with mildly reduced Ejection Fraction, HFmrEF)、射血分数保留的心力衰竭(HF with preserved Ejection Fraction, HFpEF)、右心HF、瓣膜性HF、浸润性心肌病、心肌炎、心动过速介导的心肌病及缺血性心肌病会导致不同的调查和管理途径。患者随后进入治疗启动、剂量滴定、实验室监测、器械考虑、恶化HF检测、出院计划、过渡护理、康复以及部分患者的晚期HF或姑息护理规划的重复周期。LLMs因能处理自由文本问题、总结记录并结合自然语言交互与检索增强生成(Retrieval-Augmented Generation, RAG)而在CDS中引起关注。然而,医学LLM研究表明,基准性能本身并不能确立临床安全性。对于HF,风险尤为明确:一个给出合理教育答案的系统,若遗漏高钾血症、肾功能恶化、低血压、器械资格或即将发生的失代偿,仍可能不安全。本视角并非对所有心脏病学中LLM应用的系统综述,也未报告已实施的软件产品。相反,研究人员推进了一个设计和评估框架:HF特定的LLM-CDS应根据其支持的临床决策、所需数据及错误可能造成的危害进行评估。因此,研究人员提出HF-IA作为嵌入临床治理的概念性、模块化、疾病特定、风险分级的框架。基于LLM的CDS的原始诱惑是描述一个协助鉴别诊断、表型分析、风险分层、治疗调整和随访的智能体。该描述方向上有用但技术不足。这些任务需要不同的输入、不同的参考标准和不同的容错率。诊断依赖于症状、检查、利钠肽、成像和排除模拟物。表型分析需要射血分数、结构发现、缺血和瓣膜评估、节律、浸润性疾病线索及合并症。治疗优化取决于血压、心率、肾功能、钾、容量状态/充血、用药史、依从性、衰弱、生育潜力、成本和患者偏好。因此,HF-IA应概念化为协调模块:诊断支持、表型和风险评估、GDMT安全与优化、器械资格筛选、恶化HF检测、过渡护理支持及患者教育。共享的编排层可路由查询、组装相关患者背景、检索证据、应用安全规则并返回可追溯的建议。当追求EHR集成时,数据交换应围绕卫生系统标准如快速卫生 interoperability(Fast Healthcare Interoperability Resources, FHIR)设计。临床输出应区分已知、缺失、推断及需要医生判断的行动。编排层不应简单地将所有EHR数据连接至LLM提示符。它首先应定义决策上下文,识别所需数据元素,检查这些元素是否存在且当前有效,并在关键信息缺失时阻止或降级建议。例如,GDMT滴定模块不应在没有近期钾和肾功能的情况下推荐盐皮质激素受体拮抗剂升级。器械资格模块不应在没有QRS时限、形态、射血分数、治疗后的症状、节律和预期生存期的情况下推断心脏再同步治疗(Cardiac Resynchronization Therapy, CRT)资格。恶化HF模块应根据容量状态、水肿、体重增加、肺充血或颈静脉压升高、利尿剂暴露、血压、尿量和近期药物变化等不同情况区别对待肌酐升高。这种模块化设计对评估也很重要。药物滴定推荐不能用与出院随访提醒相同的基准来验证。器械资格模块应根据指南标准和专家审查进行评判,而失代偿模块应根据漏诊、误报和亚组表现进行评判。将HF-IA视为协调框架而非单一智能体,使其主张更精确且可测试。良好的HF-IA框架必须跟随患者而非静态清单。当疑似HF时,它可能有助于汇编支持或反对HF的证据并提示评估模拟物。确诊后,HF-IA应支持HFrEF、HFmrEF、HFpEF、右心HF、瓣膜病、缺血性心肌病、淀粉样变性、心肌病、心律失常介导的心肌病及其他表型的分类。治疗期间,它应识别GDMT的机会和禁忌症,监测肾功能和钾,并解释在数据缺失时为何推迟建议。纵向管理需要额外功能:通过症状、体重、利尿剂使用、利钠肽、肾功能轨迹、器械警报和近期利用检测恶化HF;识别ICD、CRT、瓣膜干预、血运重建评估、康复、铁治疗、睡眠呼吸暂停评估及晚期HF转诊的资格;支持生活方式咨询、适当时的钠和液体指导、疫苗提醒、运动或心脏康复计划、出院核对、早期随访及与临床医生批准计划一致的自我管理教育。可更新的知识库仅在其更新过程受控时才有用。HF证据比指南周期变化更快。HFpEF和HFmrEF的最新试验,包括SGLT2抑制剂试验、肥胖相关HFpEF试验及新盐皮质激素受体拮抗剂证据,表明简单指南查找系统不足。相反,自动将每个新试验纳入推荐将不安全。研究人员提出分阶段证据流水线。首先,证据监控识别新指南、随机试验、荟萃分析、监管安全通知及主要学会声明。其次,证据分诊按HF表型、人群、干预、对照、结果和安全信号分类相关性。第三,关键评估层分级确定性、直接性和适用性。第四,有希望但尚未纳入活跃临床推荐的新材料进入证据隔离状态。第五,治理组(HF临床医生、药师、信息学家、方法学家)批准推广、限制或拒绝。最后,版本记录应记录来源、日期、理由、批准用途及回滚路径,符合更广泛的负责任机器学习部署和临床转化原则。证据流水线还应显式处理冲突。新试验可能在不同于本地患者的群体中显示益处,使用复合终点,排除晚期肾病,或报告对老年人临床重要的安全问题。在这种情况下,HF-IA不应将证据折叠为二元推荐。相反,它应呈现活跃指南推荐、新兴证据、证据适用人群、不确定性以及临床医生或治理组可能选择等待指南纳入的原因。当本地药房、报销或监测能力限制实施时,系统应使这些约束可见,而非静默假设理想条件。HF-IA响应应暴露此状态。例如,基于活跃指南的建议应与新兴证据区分标记,后者可能为专家讨论提供信息但不应驱动自动处方。这解决了经过审查的指南与新试验发表之间的差距。将所有HF-IA输出定义为必须人机回路的单一定义过于模糊。HF-IA应采用风险分级自主权。低风险任务如标记缺失随访预约或从批准模板创建患者教育可审计日志和临床医生覆盖地自动化。中风险任务如建议药物调整后延迟的肾功能监测应要求临床医生确认。高风险功能如诊断、药物启动/滴定、器械资格及恶化HF应保持人机回路。关键事件如休克、严重高钾血症、急性肺水肿或晚期HF决策应保持人类指挥并明确紧急路线。风险水平取决于临床行动和部署。安排随访通常低风险,但当患者有近期低血压、肌酐升高、严重症状或遗漏利尿剂升级时,风险变高。使用出院模板时患者教育可能低风险,但当获取症状或建议药物变化时风险变高。HF-IA应根据患者状态、缺失信息及错误推荐后果动态分配风险。这种风险分级方法在不削弱安全性的情况下增加有用性。它也为卫生系统提供实际实施路径:从低风险工作流支持开始,仅在模块特定验证、可用性测试、监测和治理审查后扩展。黄金标准病例重演作为HF-IA的纵向核心评估策略保留。其目的是测试系统是否随着新信息的可用而适当更新推理,这对HF护理至关重要。然而,黄金标准病例重演应由并行节点级测试锚定,而非作为独立基准。许多个体决策应首先单独评估,然后再重演整个时间序列。研究人员提出四阶段评估途径。第一,节点级评估应使用专家裁决案例测试离散功能:诊断分类、表型识别、禁忌症检测、GDMT机会识别、剂量安全检查、器械资格、失代偿警告、出院计划及教育质量。指标应包括专家一致性、遗漏率、潜在危害率、校准、证据可追溯性、缺失数据检测及亚组表现。第二,黄金标准纵向病例重演应按原始可用顺序馈送去识别数据,并在预定决策节点将HF-IA推荐与专家定义的最佳行动进行比较。第三,无声前瞻性验证应在不影响临床医生的情况下将HF-IA与真实护理并行运行,允许评估警报负担、假阳性、工作流适配及安全信号。第四,仅在这些阶段之后才应考虑干预研究,遵循DECIDE-AI进行早期临床评估,并在计划临床试验时遵循CONSORT-AI或SPIRIT-AI。真实情况因模块而异。诊断输出应与HF专家裁决比较,支持最终临床诊断、超声心动图、利钠肽和随访数据。表型输出应与结构化专家标签和成像结果比较。GDMT输出应与考虑禁忌症、不耐受、肾功能、钾、血压和患者偏好的指南一致专家决策比较。器械资格输出应与指南和专家审查比较。失代偿警报应与住院、静脉利尿剂需求、紧急就诊、临床裁决及时间至事件性能比较。教育和过渡护理输出应检查准确性、可读性、语言适宜性及与临床医生批准计划的一致性。评估还应包括故障模式分析。最重要的错误可能是遗漏而非错误陈述:遗漏的钾值、忽略的肾功能恶化、暗示CRT转诊的遗漏QRS时限、提示晚期HF转诊的反复入院或未能识别淀粉样变性线索的一般HFpEF答案。人为因素同样重要。产生正确但长推荐且增加认知负荷、增加警报疲劳或无法以临床医生可快速验证的方式解释证据来源的模型可能仍然失败。单个公共数据集可能无法覆盖具有完整决策输入和结果的整个HF病程。未来验证需要多中心、去识别、专家裁决的数据集,涵盖HFrEF、HFmrEF、HFpEF、急性失代偿、合并肾病、老年人、女性和代表性不足人群。报告也应反映针对预测和决策支持模型的新AI特定指南——透明描述来源、预期用途、人类监督及模型更新。本视角通过缩小HF-IA的主张而加强其价值。提出的框架并非证明LLMs改善HF结果,而是设计和评估论证:HF特定的LLM-CDS应模块化、受证据治理、风险分级,并在离散决策和纵向护理中进行评估。这不同于通用医学聊天机器人、单一来源RAG指南工具和领域无关智能体框架,因为HF-IA扎根于HF管理临床过程、数据依赖性和安全概况。应明确几个局限性。首先,HF-IA是概念性的。没有部署的系统、性能估计或患者结果报告。框架指定应构建和评估的内容,而非已证明的内容。其次,提出的模块需要机构数据集成、FHIR兼容接口、基于角色的访问控制、审计日志、网络安全性测试及本地工作流适应。第三,知识更新需要治理资源,这可能并非在所有设置中都可用。第四,评估数据集必须足够多样化,以避免构建仅适用于狭窄HF群体的系统。第五,监管分类可能因司法管辖区及自主权和治疗影响的程度而异。这些局限性并非次要实施细节。它们定义了有用概念框架与临床可部署系统之间的边界。没有可靠药物核对、及时实验室数据或结构化超声心动图字段的医院无法部署高风险HF-IA模块而无需额外保障措施。同样,仅在学术HFrEF患者中验证的系统不应假设可泛化至HFpEF、农村环境、老年衰弱患者、晚期肾病或多重合并症患者。因此,未来工作应分阶段进行:原型开发、回顾性节点测试、纵向病例重演、无声前瞻性验证、可用性评估、治理审查,然后才是受控临床评估。总之,本视角为开发和评估成人HF或有HF风险的LLM赋能CDS提供概念框架。通过将HF-IA映射到HF的复杂临床过程,框架突出了协调AI模块如何支持诊断、表型分析、GDMT优化、生活方式和自我管理支持、监测、器械转诊、恶化HF检测、过渡护理及晚期HF规划。其核心贡献在于将HF特定的临床决策点与证据治理、风险分级自主权及分阶段评估联系起来。如果以负责任的方式开发和验证,此类框架可能帮助医生和卫生系统提供更安全、更一致且可扩展的HF护理,同时保留适当的人类监督。
心力衰竭(Heart Failure, HF)作为全球主要的发病原因,给医疗系统带来巨大负担。传统HF护理是一个在不确定性下进行的纵向决策序列,涉及症状整合、表型分类、指南导向治疗(GDMT)优化及并发症管理。随着大型语言模型(LLMs)在自然语言处理和检索增强生成(RAG)方面的进步,临床医生对其用于临床决策支持(CDS)产生兴趣,但现有研究多聚焦于单一智能体或通用医疗聊天机器人,缺乏针对HF复杂病程、数据依赖性和安全风险的系统性设计框架,且单一模型难以兼顾诊断、治疗及预后监测的不同容错率。为此,研究人员旨在开发并评估一种专为HF设计的、模块化和风险分级的LLM-CDS概念框架——“心力衰竭智能体”(HF-IA),以解决现有方案在安全性、可解释性及评估体系上的不足。
为开展研究,研究人员基于HF临床指南和专家共识,构建了HF-IA的概念架构,该架构不涉及具体试剂、培养或质粒构建操作,而是侧重于软件逻辑与临床工作流的整合。研究依据HF诊疗路径,将HF-IA划分为诊断支持、表型与风险评估、GDMT安全优化、器械资格筛选、恶化HF检测、过渡护理支持及患者教育等多个独立模块。研究人员提出了包含证据更新治理、风险分级自主权及四阶段评估体系(节点级测试、黄金标准纵向病例重演、无声前瞻性验证及部署后监测)的综合框架,强调不同模块需匹配不同的数据需求(如心电图、超声心动图、实验室指标)和监管要求,以确保在保留人类监督的前提下提升临床效率。
研究得出以下主要结论:
首先,模块化设计优于单体架构。通过将HF护理分解为独立模块,系统可针对不同任务(如诊断与药物滴定)设定差异化的数据输入和安全规则,避免“一刀切”带来的潜在风险。例如,GDMT滴定模块需严格监控钾水平和肾功能,而器械资格模块需依赖QRS时限和射血分数,模块化设计使得各部分可独立验证和优化。
其次,实施风险分级自主权至关重要。研究人员提出根据临床行动的风险等级动态调整自动化程度:低风险任务(如随访提醒)可自动化,中风险任务(如监测建议)需临床确认,高风险任务(如诊断、药物启动、器械决策)必须保持“人机回路”。这种分层策略在提升可用性的同时确保了患者安全。
第三,建立动态证据治理与冲突仲裁机制。鉴于HF证据更新迅速且常存在指南与新药试验间的冲突,HF-IA采用分阶段证据流水线,通过证据监控、分诊、关键评估及隔离审查,确保系统推荐既符合最新证据又不过度超前,显式展示证据来源、适用人群及不确定性,避免盲目自动化处方。
第四,构建以纵向病例重演为核心的综合评估体系。研究强调单纯基准测试不足以评估安全性,必须结合节点级专家一致性检查、基于去识别真实世界数据的黄金标准病例重演(检验时间序列推理能力)、无声前瞻性验证(评估工作流适配与警报负担)及故障模式分析。评估重点从准确性转向遗漏率、潜在危害及认知负荷影响,特别关注模型是否遗漏关键危险信号(如高钾血症或恶化迹象)。
该论文发表在《Frontiers in Digital Health》。其重要意义在于,HF-IA框架不仅提供了一种技术架构,更确立了一套针对疾病特定LLM-CDS的设计、验证和治理标准。它强调了临床决策的复杂性和安全性优先原则,为未来开发可信赖、可扩展且符合监管要求的医疗AI系统提供了理论依据和实践路径。通过连接具体的临床决策点与严格的证据治理及风险评估,该框架有助于在不取代医生判断的前提下,提升HF护理的一致性与安全性。
研究人员开展的研究主要基于概念性框架设计,未涉及具体的临床样本队列实验,而是通过逻辑推导和现有指南/证据的映射构建理论模型。主要关键技术方法包括:构建模块化智能体架构,将HF护理流程拆解为诊断、表型、治疗、器械、监测等独立功能单元;设计基于FHIR标准的EHR数据交互逻辑,确保数据抽取的结构化与实时性;开发分阶段证据更新流水线,整合文献监控、质量评估与版本控制机制;制定风险分级算法,根据患者状态、数据缺失情况及行动后果动态分配自主权;以及提出包含节点测试、病例重演、无声验证的多维度评估指标体系,涵盖专家一致性、遗漏率、校准度及警报疲劳度等关键参数。
研究结果表明,HF-IA框架通过模块化设计有效区分了不同临床任务的数据需求与安全标准,避免了单一模型在处理异构任务时的性能瓶颈。通过引入风险分级自主权,系统能够在低风险场景中提高效率,而在高风险决策中强制人类介入,从而平衡便利性与安全性。证据治理模块确保了推荐内容既能反映最新临床试验结果,又能审慎处理与现有指南的冲突,减少了因证据滞后或过度激进带来的临床风险。评估体系的提出弥补了现有LLM研究缺乏纵向安全性验证的空白,强调了在真实世界部署前需经过严格的回顾性重演和前瞻性监测。
讨论部分指出,尽管HF-IA框架在理论上具备优势,但仍面临概念验证、数据集成复杂性、治理资源需求及监管不确定性等挑战。研究人员明确该框架目前仅为概念性指导,尚未经过实际临床部署或疗效验证。未来工作应逐步推进从原型开发到受控临床试验的过渡,并需确保数据集的多样性以覆盖不同HF表型和人群。
研究结论为:HF-specific LLM-CDS应被设计为模块化、受证据治理、风险分级,并采用分阶段评估策略。HF-IA框架通过协调AI模块支持HF全病程管理,其核心价值在于将临床决策点与严格的治理和安全机制相结合,为开发更安全、一致且可扩展的HF智能辅助系统提供了概念基础,最终目标是在保留适当人类监督的前提下提升医疗质量。