一个由人工智能辅助的英国国家医疗服务体系(NHS)将依赖临床指南,但如果这些指南所依据的证据存在不公平性该怎么办?

时间:2026年1月19日
来源:BMJ Public Health

编辑推荐:

英国10年健康计划推动AI医疗,但NICE临床指南存在性别数据不足问题,导致AI模型偏见风险,影响患者安全与公平治疗。

广告
   X   

摘要

英国针对英格兰的新十年健康计划提出了一项雄心勃勃的议程,旨在建立一个日益数字化和数据驱动的医疗系统。在这一系统中,人工智能(AI)预计将在实现为所有人提供个性化医疗的长期目标中发挥重要作用。最近的一项研究指出,国家健康与护理卓越研究所(National Institute for Health and Care Excellence)的临床指南在考虑性别和性别差异方面存在不足,而这些指南将用于培训NHS使用的人工智能模型。当人工智能模型基于不公平的数据进行训练时,它们有可能放大偏见,从而对患者安全产生有害影响。

英国针对英格兰的新十年健康计划为建立一个日益数字化和数据驱动的医疗系统制定了宏伟的目标。该计划希望“使人工智能成为每位护士和医生的可信助手,节省他们的时间并协助他们做出决策”,这有望在实现为所有人提供个性化医疗的长期目标中发挥关键作用。1 为了使人工智能模型能够支持临床决策,它们必须基于相关数据进行训练,并以可靠的临床指南为依据。2 然而,如果这些指南不具有包容性和公平性呢?

临床指南应促进统一的高质量标准,并且会对医疗服务的提供方式产生直接且广泛的影响。随着指南越来越多地被用于训练人工智能模型,这种影响肯定会进一步扩大。在英国,最大的临床指南集合由国家健康与护理卓越研究所(NICE)发布,该机构由卫生与社会护理部(Department of Health and Social Care)资助并向其负责(该部门也发布了新的十年健康计划)。NICE的指南由专家委员会编写和更新,这些委员会会参考相关证据来确定临床护理的最佳实践标准。

随着人工智能技术的普及,临床指南中的不足和缺陷将会被放大。特别是在代表性问题上,这种情况尤为令人担忧。有证据表明,当人工智能模型基于未能充分反映性别和/或性别差异的数据进行训练时,代表性不足的群体更有可能出现不良结果。3 例如,广泛用于预测肝病患者病情发展的机器学习模型(其准确率被认为超过70%)在按性别细分数据后,对女性的误诊率高达44%,而对男性的误诊率仅为23%。4 误诊可能导致诊断延误,以及患者得不到针对性更强或更合适的护理。同样,2024年的一项研究揭示了人工智能模型在预测冠状动脉疾病(CAD)风险方面的性别偏见:当模型仅使用女性患者的数据时,它预测女性的CAD风险更高;然而,当将所有患者的精神共病情况纳入考虑范围后,模型显示男性的风险比女性高出56%。5 这一发现表明,该模型可能模仿了临床护理中存在的性别偏见,即女性的心脏症状常常被误认为是心理因素引起的。

为了减少人工智能工具导致的偏见性临床决策,临床指南必须尽可能全面地反映整个人群的情况,并明确指出不同亚群体之间的关键差异以及不存在差异的地方。2024年,我们审查了所有NICE的临床指南,以评估它们在健康和疾病的临床表现、检查、诊断和治疗方面对性别和性别差异的考虑程度。6 在197项不涉及特定性别疾病(如前列腺癌或子宫内膜异位症)的NICE指南中,只有一项指南为男性和女性提供了基于证据的治疗建议。虽然61%的指南提到了健康和疾病的性别和/或性别维度,但只有41%的指南在妊娠和生育以外的情境中也讨论了这些维度。此外,我们发现有几项指南指出女性和男性在疾病表现上可能存在差异(如注意力缺陷多动障碍(NG87)和自闭症(CG128),但并未提供关于这些差异的具体信息,也没有说明如何对女性和女孩进行有效的诊断和治疗。还有一些指南仅规定了医生在治疗女性患者(尤其是孕妇)时应避免的行为,但没有提供相应的解决方案。例如,有些指南指出,如果患者怀孕,C反应蛋白(CRP)值无法可靠地评估急性呼吸道感染的风险,但并未提出其他评估方法(NG237)。

这项研究指出,NICE的临床指南中缺乏关于性别和/或性别差异的关键信息。部分原因在于NICE指南所依赖的医学证据库中关于性别和/或性别差异的分析报告不足。7 各部门(包括资助者、监管机构、出版商和研究机构)共同努力提高研究实践中的性别和性别包容性是非常必要的,英国的医学科学性别与性别平等项目(Medical Science Sex and Gender Equity)正在引领这方面的工作。8

然而,我们的分析还发现,在指南制定过程中,对性别和性别维度的处理方式存在不一致性和不明确性。指南经常将“性别”和“性别差异”这两个术语混用,尽管实际指的是生物学上的性别而非社会性别,并且只有3%的指南(1.5%)对所使用的术语进行了定义。这些定义在不同指南中也不尽相同。此外,当缺乏相关证据或预后工具未经过男性群体的验证时(例如男性乳腺癌和PREDICT工具(NG101)的情况),指南会明确说明这一限制;然而,当缺乏女性相关证据时,则不会做出类似的说明。这样一来,指南的制定过程似乎延续了“男性标准”,即以男性数据为默认值,将差异视为对这一标准的调整或例外。指南在是否考虑性别和性别差异方面的模糊性使得临床医生和人工智能难以根据患者的具体情况做出基于证据的个性化决策。

自2022年以来,英国研究领域的资助者和监管机构提出了新的要求,要求研究人员在研究中考虑性别和性别差异。2025年秋季,政府的国家健康与护理研究所发布了性别和性别政策,要求其16亿英镑的资金资助项目中的所有研究人员进行性别和/或性别差异分析,并在出版物中报告和讨论分析结果。随着越来越多的关于性别和性别差异的证据出现,以及越来越多的证据表明这些差异并不存在,这些数据必须被纳入推动医疗进步的临床指南中,随后将通过人工智能辅助的决策得到更广泛的应用。指南必须反映整个人群的情况,明确不同亚群体之间的临床差异,并提供个性化的建议——否则,数字化计划将无法实现个性化医疗的目标,反而可能加剧甚至扩大健康不平等,最终造成伤害。

生物通微信公众号
微信
新浪微博


生物通 版权所有