综述:人工智能在医疗保健应用中的偏差识别与缓解策略

时间:2025年3月13日
来源:npj Digital Medicine

编辑推荐:

人工智能在医疗领域应用广泛,但存在偏差问题。本文探讨其偏差来源、缓解策略及相关责任。

广告
   X   

一、引言

在当今医疗领域,人工智能(AI)正以前所未有的速度融入临床实践的各个方面。截至 2024 年 5 月 13 日,美国食品药品监督管理局(FDA)数据显示,AI 驱动的医疗器械获批数量激增,达到 882 项,其中放射学领域占比最高,达 76% ,这充分彰显了 AI 在改善和个性化医疗服务方面的巨大潜力。然而,AI 模型的复杂性也带来了诸多挑战,其中偏差问题尤为突出。偏差不仅会影响 AI 模型的性能,还可能加剧医疗保健领域的不平等现象。因此,深入研究 AI 在医疗应用中的偏差识别与缓解策略至关重要。

二、研究方法

本综述采用批判性回顾方法,系统地探索和整合 1993 年至 2024 年期间相关文献。研究人员通过检索 PubMed、Google Scholar 等数据库以及 Elsevier 等平台,利用布尔运算符组合 “Medical AI”“Healthcare AI”“AI bias” 等关键词进行筛选。最终从 233 篇潜在相关文章中,经过标题、摘要筛选和全文审查,确定了 94 篇直接探讨 AI 偏差及缓解策略的文章纳入研究。

三、公平性、平等性和公平性原则

公平性、平等性和公平性是医疗保健的核心原则,却极易受到偏差的影响。公平性在医疗领域涵盖分配正义和社会关系层面,它超越了平等性中单纯追求的平等获取和结果,强调要综合考虑个体独特的社会、文化和环境因素。而公平性则认识到某些群体可能需要特定的资源或支持,才能获得可比的健康益处。在实际操作中,平衡这些原则至关重要,因为一刀切的公平方法可能会无意中加剧现有的医疗差距。

四、偏差的定义与类型

在医疗 AI 环境下,偏差可定义为对不同患者群体进行预测时产生的任何系统性和(或)不公平差异,这可能导致医疗服务的不公平提供。偏差的产生遵循 “垃圾进,垃圾出(garbage in, garbage out)” 的衍生概念 “偏差进,偏差出(bias in, bias out)”,即训练数据中的偏差往往会在模型实际应用中表现出来。偏差可在算法生命周期的各个阶段出现,包括概念形成、数据收集与准备、算法开发与验证、临床实施和监测等,且目前缺乏有效的检测和缓解方法。
偏差主要分为以下几类:
  1. 人类偏差:这是医疗 AI 中偏差的主要来源,反映了历史或普遍存在的人类观念、假设和偏好。例如,隐含偏差(Implicit bias)源于潜意识对个人或群体特征的态度和刻板印象,会影响医疗 AI 系统,如女性肝硬化患者在肝移植等待过程中更难获得移植且死亡率更高;系统性偏差(Systemic bias)涉及更广泛的机构规范、实践或政策,如医疗资源分配对 uninsured 个体、服务不足社区和少数族裔群体的不公平;确认偏差(Confirmation bias)指开发人员在模型开发过程中,有意识或无意识地选择、解释或加权数据以证实自己的信念123
  2. 数据偏差:数据在 AI 模型训练过程中会引入多种偏差。代表性偏差(Representation bias)表现为训练数据缺乏多样性,导致模型难以推广到不同环境或人群,如基于胸部 X 光数据集训练的卷积神经网络(CNNs)对特定患者群体疾病检测能力不足;选择和采样偏差(Selection and sampling bias)包括选择偏差(如 “健康志愿者” 选择偏差)和采样偏差(非随机采样导致数据不具代表性);测量偏差(Measurement bias)则因数据采集和处理方法的差异而产生,影响数据的真实表达,例如不同医院的数据采集方式差异会导致 AI 模型学习到非生物学变异456
  3. 算法偏差:算法偏差产生于训练数据集的预处理、算法概念设计、训练或验证阶段。聚合偏差(Aggregation bias)在数据预处理阶段,由于不恰当合并不同群体数据,导致模型性能仅针对多数群体优化,如机器学习临床预测研究中对缺失数据处理不当影响模型在特定子群体的性能;特征选择偏差(Feature selection bias)指选择的训练模型特征不能充分代表潜在问题或在不同子群体中相关性不一致,例如 COVID - 19 患者风险预测模型对社会决定因素的考虑不足789
  4. 模型部署偏差:模型部署阶段也会出现多种偏差。自动化偏差(Automation bias)表现为医疗专业人员过度依赖 AI 系统建议,导致错误判断,如放射科医生在乳腺 X 光筛查中受 AI 错误建议影响准确性下降;反馈循环偏差(Feedback loop bias)指临床医生无条件信任并遵循 AI 建议,使算法从错误中学习并强化错误; Dismissal bias(Alarm Fatigue)则是用户因过去的误报而忽视或低估 AI 生成的警报或建议,可能导致患者受到伤害101112

五、缓解医疗 AI 偏差的模型生命周期方法

缓解医疗 AI 偏差需要建立标准化、可重复的方法,这是 AI - 医疗开发者和提供者的重要社会责任。基于 AI 模型生命周期的方法,有助于系统地识别、量化和减轻偏差对医疗公平性的影响。AI 模型生命周期包括概念化、数据收集与预处理、处理中(算法开发与验证)、后处理(临床部署)和部署后监测等阶段。
  1. 概念化阶段:偏差监测应从模型概念化开始,明确临床研究问题,识别潜在偏差领域。AI 医疗团队需多元化,包括临床专家、数据科学家等,确保遵循多样性、公平性和包容性(DEI)原则。在确定研究问题、目标人群和预期结果时,要充分考虑不同社会人口特征群体的影响,消除隐含、系统和确认偏差。但此阶段面临挑战,如团队成员需要接受偏见意识培训,克服确认偏差需要持续的批判性思维1314
  2. 数据收集阶段:数据收集应尽可能反映模型服务人群的多样性,考虑患者亚组的细微差异。为减少代表性、采样、选择和测量偏差,可采取多种策略,如使用多种数据来源、参与开放科学实践、谨慎选择回顾性和前瞻性数据、评估数据准确性和可靠性、合理设置纳入和排除标准等。然而,获取无偏差、广泛代表性的医疗数据集困难重重,包括数据稀疏、采样和参与偏差难以消除、标准化数据收集资源密集等问题1516
  3. 预处理阶段:预处理阶段主要任务是为模型开发清理和准备原始数据,需注意管理缺失数据、选择相关变量和进行特征工程,以确保数据多样性、代表性和子样本平衡。此阶段要特别关注聚合、缺失数据、特征选择和代表性等偏差,采取相应策略如审查数据收集方法、评估输入变量稳定性、进行数据增强等。但这些策略也存在局限性,如数据增强可能无法真实反映数据多样性1718
  4. 处理中(算法开发与验证)阶段:在算法开发与验证阶段,要主动识别和解决潜在偏差,如算法偏差、验证偏差和代表性偏差。可通过分层子组分析、考虑反事实示例、使用公平性指标等方法进行。同时,要应对数据不平衡问题,采用重采样、合成数据生成或成本敏感学习等策略,但这些策略也各有局限性。此外,模型架构选择、外部验证和文档记录也十分关键1920
  5. 后处理(临床部署)阶段:临床部署阶段涉及模型在实际临床环境中的实施。应遵循人在回路(HITL)策略,确保人类专家审查模型预测。透明披露模型训练人口统计分布,报告相关子群体的模型性能,调整模型阈值以适应用户输入。还可使用增强模型可解释性的工具,但这些工具可能存在局限性。在不同临床环境和人群中进行结构化预部署测试,有助于识别潜在偏差,但该过程可能耗时较长2122
  6. 部署后监测阶段:部署后监测阶段需持续监测 AI 模型在医疗环境中的性能、维护和重新校准。通过监测用户参与度、决策影响和模型准确性,结合患者人口统计信息,识别潜在偏差和不公平现象。这是一个长期过程,医疗机构需将用于 AI 模型的数据视为受监管的数据产品,遵循相关指南和框架,确保算法的准确性和公平性2324

六、未来方向

随着 AI 医疗创新的快速发展,将 DEI 原则融入 AI 模型生命周期的各个阶段至关重要,包括开展结构化偏差监测和缓解框架、培养多元化的 AI 开发者社区、制定 AI 医疗特定临床实践指南等。然而,由于 AI 发展速度远超立法、监管和实践指南制定速度,实现这些目标面临挑战。政策制定者、临床医生、研究人员和患者倡导团体需共同努力,提高 AI 医疗模型的多样性。同时,将 AI 和机器学习内容纳入医学培训课程,使医疗专业人员能够理解 AI 偏差及其伦理影响,为 AI 的优化和合理临床应用做出贡献2526

七、结论

在 AI 技术日益影响医疗保健的背景下,识别和缓解偏差是重中之重。这不仅关乎 AI 创新的准确性和可靠性,更是维护医疗伦理标准、确保医疗公平性的关键。只有有效解决偏差问题,AI 才能真正成为缩小医疗差距的有力工具,推动医疗保健事业向更加公平、高效的方向发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有