在医疗 AI 环境下,偏差可定义为对不同患者群体进行预测时产生的任何系统性和(或)不公平差异,这可能导致医疗服务的不公平提供。偏差的产生遵循 “垃圾进,垃圾出(garbage in, garbage out)” 的衍生概念 “偏差进,偏差出(bias in, bias out)”,即训练数据中的偏差往往会在模型实际应用中表现出来。偏差可在算法生命周期的各个阶段出现,包括概念形成、数据收集与准备、算法开发与验证、临床实施和监测等,且目前缺乏有效的检测和缓解方法。
偏差主要分为以下几类:
人类偏差:这是医疗 AI 中偏差的主要来源,反映了历史或普遍存在的人类观念、假设和偏好。例如,隐含偏差(Implicit bias)源于潜意识对个人或群体特征的态度和刻板印象,会影响医疗 AI 系统,如女性肝硬化患者在肝移植等待过程中更难获得移植且死亡率更高;系统性偏差(Systemic bias)涉及更广泛的机构规范、实践或政策,如医疗资源分配对 uninsured 个体、服务不足社区和少数族裔群体的不公平;确认偏差(Confirmation bias)指开发人员在模型开发过程中,有意识或无意识地选择、解释或加权数据以证实自己的信念123。
数据偏差:数据在 AI 模型训练过程中会引入多种偏差。代表性偏差(Representation bias)表现为训练数据缺乏多样性,导致模型难以推广到不同环境或人群,如基于胸部 X 光数据集训练的卷积神经网络(CNNs)对特定患者群体疾病检测能力不足;选择和采样偏差(Selection and sampling bias)包括选择偏差(如 “健康志愿者” 选择偏差)和采样偏差(非随机采样导致数据不具代表性);测量偏差(Measurement bias)则因数据采集和处理方法的差异而产生,影响数据的真实表达,例如不同医院的数据采集方式差异会导致 AI 模型学习到非生物学变异456。
模型部署偏差:模型部署阶段也会出现多种偏差。自动化偏差(Automation bias)表现为医疗专业人员过度依赖 AI 系统建议,导致错误判断,如放射科医生在乳腺 X 光筛查中受 AI 错误建议影响准确性下降;反馈循环偏差(Feedback loop bias)指临床医生无条件信任并遵循 AI 建议,使算法从错误中学习并强化错误; Dismissal bias(Alarm Fatigue)则是用户因过去的误报而忽视或低估 AI 生成的警报或建议,可能导致患者受到伤害101112。
五、缓解医疗 AI 偏差的模型生命周期方法
缓解医疗 AI 偏差需要建立标准化、可重复的方法,这是 AI - 医疗开发者和提供者的重要社会责任。基于 AI 模型生命周期的方法,有助于系统地识别、量化和减轻偏差对医疗公平性的影响。AI 模型生命周期包括概念化、数据收集与预处理、处理中(算法开发与验证)、后处理(临床部署)和部署后监测等阶段。
部署后监测阶段:部署后监测阶段需持续监测 AI 模型在医疗环境中的性能、维护和重新校准。通过监测用户参与度、决策影响和模型准确性,结合患者人口统计信息,识别潜在偏差和不公平现象。这是一个长期过程,医疗机构需将用于 AI 模型的数据视为受监管的数据产品,遵循相关指南和框架,确保算法的准确性和公平性2324。
六、未来方向
随着 AI 医疗创新的快速发展,将 DEI 原则融入 AI 模型生命周期的各个阶段至关重要,包括开展结构化偏差监测和缓解框架、培养多元化的 AI 开发者社区、制定 AI 医疗特定临床实践指南等。然而,由于 AI 发展速度远超立法、监管和实践指南制定速度,实现这些目标面临挑战。政策制定者、临床医生、研究人员和患者倡导团体需共同努力,提高 AI 医疗模型的多样性。同时,将 AI 和机器学习内容纳入医学培训课程,使医疗专业人员能够理解 AI 偏差及其伦理影响,为 AI 的优化和合理临床应用做出贡献2526。
七、结论
在 AI 技术日益影响医疗保健的背景下,识别和缓解偏差是重中之重。这不仅关乎 AI 创新的准确性和可靠性,更是维护医疗伦理标准、确保医疗公平性的关键。只有有效解决偏差问题,AI 才能真正成为缩小医疗差距的有力工具,推动医疗保健事业向更加公平、高效的方向发展。