GIN-McMaster指南制定核对清单(Guideline Development Checklist, GDC)用于整合人工智能于卫生指南全生命周期(Health Guideline Enterprise)的扩展版——GIN-AI工作组制定

时间:2026年5月31日
来源:Clinical and Public Health Guidelines

编辑推荐:

摘要:人工智能(Artificial Intelligence, AI)可支持卫生指南全生命周期(health guideline enterprise)中的若干流程。本文描述了在原始GIN-McMaster指南制定核对清单(Guideline Develop

广告
   X   

摘要:人工智能(Artificial Intelligence, AI)可支持卫生指南全生命周期(health guideline enterprise)中的若干流程。本文描述了在原始GIN-McMaster指南制定核对清单(Guideline Development Checklist, GDC)基础上,开发用于整合AI于指南全生命周期的扩展版之过程。本开发工作由GIN-AI工作组主导。研究人员首先提示大语言模型(Large Language Model, LLM)针对原始GDC各步骤生成与AI使用相关的条目;随后工作组成员开展多轮迭代讨论,对条目进行精炼并形成共识初版;研究人员将该初版回溯应用于在制定过程中使用了AI的指南案例——过敏性鼻炎及其对哮喘的影响(Allergic Rhinitis and its Impact on Asthma, ARIA)2024–2025指南,进一步精炼条目并最终批准终版扩展工具。提示LLM共生成149个条目,其中117条被剔除,19条经工作组成员修改,另有17条在迭代讨论过程中新增;回溯应用导致4个条目的措辞发生变动。最终版核对清单扩展经批准后含49个条目,对原始GDC进行增补或修改。研究人员开发了GIN-McMaster GDC的扩展版,包含一套行为规范标准,旨在促进AI全面、透明地整合入卫生指南全生命周期。本研究未注册临床试验。
论文解读:
【研究背景与意义】
随着人工智能(Artificial Intelligence, AI),尤其是生成式AI及大语言模型(Large Language Model, LLM)在循证医学证据合成、系统评价(systematic review)、临床实践指南(Clinical Practice Guideline, CPG)制定与实施等卫生指南全生命周期(health guideline enterprise)中的应用日益增多,AI既可提升效率(如自动化文献筛选、数据提取、PICO问题生成等),也存在幻觉(hallucination)、算法偏见、透明度不足及责任归属等风险。GIN-McMaster指南制定核对清单(Guideline Development Checklist, GDC)是卫生指南制定的事实标准,已有快速指南、利益攸关方参与、健康公平、质量保证与改进等多个扩展版,但此前尚无专门针对AI整合的扩展。为此,Guidelines International Network(GIN)成立AI工作组,任务是确立AI使用原则并开发GIN-McMaster GDC的AI扩展版,以指导指南制定者透明、负责任地将AI工具纳入各阶段工作。该论文发表于《Clinical and Public Health Guidelines》。
【主要技术方法】
研究人员采用多阶段混合方法开发核对清单扩展:①开展范围综述(scoping review),检索MEDLINE与Embase中AI用于卫生指南制定的文献以辅助条目讨论;②用ChatGPT 4.0按few-shot提示结构,针对原始GDC的18个步骤逐一生成AI相关条目;③两名GIN-AI工作组成员独立评估LLM输出,去重、剔除无关或重复项、对照原始GDC及已有扩展,并补充范围综述识别的相关内容;④全体工作组成员通过在线表单多轮反馈并召开共识会议形成初版;⑤将初版回溯应用于ARIA 2024–2025指南(该指南在制定中使用了AI辅助生成问题与检索证据),由ARIA指导小组成员填写并提修改建议;⑥依反馈微调措辞,全体工作组投票批准终版,并提交GIN董事会审阅。
【研究结果】
■ 3 Results(结果)
LLM初筛生成149个条目。研究人员删除117条(79.2%),含5条与原始GDC重复、112条与"指南制定中使用AI工具"无关(如误为"制定AI临床应用指南"的条目)。剩余32条中修改19条(59.4%),新增14条(均非来自其他已发表核对清单,因范围综述未发现同类工具),最终初版含46条。内部共识阶段再修改7条、新增3条,形成含49个条目的修订草案。回溯应用致4个条目措辞微调。49个条目构成:13条(26.5%)为LLM原生成且基本保留,19条(38.8%)为LLM生成后经修改,17条(34.7%)为专家新增。
扩展清单按原始GDC 18个步骤组织,核心新增/修改要点归纳如下:
  • 组织预算规划与培训(第1步):要求明确拟引入AI的具体阶段、评估软硬件与专长需求、确保AI工具版本/模型可更新、预算含许可与培训费、建立与AI供应商或学术机构合作、规划团队成员AI素养培训、获取监管/顾问机构审批。
  • 优先级设定(第2步):可用AI辅助收集影响数据、现有证据与新近指南以辅助主题优先级判定,并记录AI使用方式。
  • 指南组成员(第3步):须纳入AI与数据科学专家,明确其角色(工具选型、自研/微调监督、AI输出质量审查及局限性解释),考虑跨学科协作。
  • 建立指南组流程(第4步):制定AI生成证据/见解如何纳入流程的工作流,规定AI输出分歧解决机制,设持续反馈以评估AI工具影响。
  • 消费者与利益攸关方参与(第6步):可用AI汇总不同利益攸关方意见。
  • 利益冲突(Conflict of Interest, COI)考量(第7步):COI声明须扩展至AI工具开发/部署/评估中的财务利益、知识产权披露,制定AI相关COI管理政策,公开披露并说明管理方式,定期更新,若用AI辅助COI评估亦须透明报告。
  • PICO问题生成(第8步):详述如何用infodemiology数据或他源通过AI辅助识别PICO,若直接用LLM生成须记录提示词(prompt)、赋予的角色及偏见评估。
  • 结局与干预重要性考量(第9步):可用AI基于infodemiology或自然语言处理识别重要健康结局,记录AI辅助的患者价值观/偏好合成过程、偏倚风险(如某些人群代表性不足),若用AI评估偏倚或证据确定性须说明。
  • 证据纳入与检索(第10步):建立与AI开发者协作选工具之流程,完整记录AI用于记录筛选、数据提取、偏倚评估、灰色文献识别的全过程以利透明与可重现。
  • 证据总结(第11步):记录AI数据提取与证据摘要方式,详述人工校验过程(含错误率或一致性指标)。
  • 证据体质量/确定性判定(第12步):明确是否用AI辅助GRADE等证据确定性评估,记录AI辅助的域及人工验证方式,保证跨结局/比较间AI表现一致。
  • 推荐形成与强度确定(第13步):记录AI支持推荐形成的方法,区分AI与人类角色,定义Evidence-to-Decision框架中AI输出的质量与可信度评判法。
  • 推荐措辞与实施/可行/公平考量(第14步):若用生成式AI起草或针对不同受众(患者、医师、决策者)改编推荐措辞须记录,含是否用角色扮演(role-play)。
  • 报告与同行评议(第15步):指南正文须明确AI工具名称与使用环节,AI特定输出须经AI/数据科学及临床专家评审。
  • 传播与实施(第16步):用AI设计针对性传播策略(面向医护、技术开发方、决策者、公众),记录AI用于制作通俗摘要、决策辅助工具等,用AI识别实施障碍,与医疗IT机构合作将推荐嵌入AI临床决策支持系统(Clinical Decision Support System, CDSS)。
  • 评价与使用(第17步):指南完成后评估AI工具的效率/成本/质量影响以决定是否延续使用;可用AI监测推荐实施效果。
  • 更新(第18步):预留资源与AI研究者持续合作以便自动监测新证据触发更新,明确负责人及是否借助AI自动文献监控。
回溯应用于ARIA 2024–2025指南显示:已完成步骤中14项AI扩展条目被满足,11项未满足(如未处理AI相关COI),18项不适用(该环节未用AI),印证清单可揭示指南制定中AI使用的透明性缺口。
【讨论与结论】
研究人员指出,本扩展版通过明确AI可用于指南全生命周期的各节点,促进透明度并引导指南专家组系统讨论如何最大化AI的效率与质量增益(符合GIN原则中的"附加性,additionality"),同时警示若无前期规划、培训及人工核验,AI可能降低效率或产生不当输出,威胁问责制(accountability)与透明度。清单也提示须防范无批判地使用AI及跳过人工验证的风险。值得注意的是,LLM初生成条目仅约8.7%未经大幅修改即保留,强调对AI输出须具备批判性评估能力。使用单一LLM(ChatGPT 4.0)及单次提示、未进行前瞻性多指南外部验证系本研究局限;多数条目虽适用于各类AI,但部分侧重LLM特性。未来需在前瞻性独立评价中检验其效用,并定期(≥每年)由GIN工作组审议更新。
结论翻译:研究人员开发了GIN-McMaster指南制定核对清单(GIN-McMaster Guideline Development Checklist, GDC)的AI聚焦扩展版。该扩展条目概述了一套最低行为规范标准,意在促进AI工具全面整合于卫生指南全生命周期(health guideline enterprise)。本工具因应AI在卫生指南制定过程中日益广泛使用而开发,其前瞻性应用可提供进一步精炼与完善之依据。

生物通微信公众号
微信
新浪微博


生物通 版权所有