在医疗科技飞速发展的当下,大语言模型(LLMs)如同一把双刃剑,正逐渐渗透到医疗领域的各个角落。它在临床研究和决策支持方面展现出巨大潜力,像在临床试验匹配中,能快速为患者找到合适的试验项目,加速医学研究进程;在医学问答里,基于大量知识储备,为医生提供决策参考 。然而,这把剑也存在 “暗伤”。当把种族、性别、收入水平等社会人口因素输入 LLMs 时,它可能给出错误且有害的输出。比如,在临床试验匹配中,某些群体可能因这些因素被系统地排除在外;医学问答中,错误信息会对弱势群体造成更大影响,这无疑会加剧本就存在的健康不平等问题。为了解决这一棘手难题,来自美国匹兹堡大学(University of Pittsburgh)的研究人员展开了深入研究,其成果发表在《npj Digital Medicine》上。
研究人员提出了 EquityGuard 这一创新框架。该框架主要运用对比学习(contrastive learning)技术,这是一种自我监督的机器学习方法,旨在通过对比样本的正负极对,学习有效的数据表示。在这个研究里,就是要减少种族、性别和社会人口健康决定因素(SDOH)等因素对模型预测的影响。研究使用了多个公开数据集,如用于临床试验匹配(CTM)的 SIGIR 2016、TREC 2021 和 TREC 2022 数据集,以及用于医学问答(MQA)的 MedQA 和 MedMCQA 数据集。
研究结果
- LLMs 公平性比较:研究对 GPT-4、GPT-4o Mini、Gemini 和 Claude 等模型进行评估。在 CTM 任务中,GPT-4 表现最佳,面对不同社会人口因素时,其标准化折损累计增益(NDCG@10)得分稳定;在 MQA 任务中,GPT-4 错误率也较低,尤其在处理性别和种族相关问题时表现出色。相比之下,Gemini 和 Claude 在处理一些弱势群体相关问题时,表现出较大的性能差异,错误率较高。
- 公平性和相关性分析:通过相关性分析发现,在 CTM 和 MQA 任务中,种族、性别和 SDOH 因素之间存在显著相关性。例如,在 CTM 任务里,黑人与太平洋岛民类别、失业与低收入等因素之间存在较强相关性;在 MQA 任务中,失业与残疾类别相关性较高,低收入与其他类别呈负相关。
- CTM 中的不平等缓解:以 LLaMA38B、Mistral v0.3 等模型为评估对象,对比有无 EquityGuard 框架时的性能。结果显示,使用 EquityGuard 的模型在不同种族、性别和 SDOH 因素下,NDCG@10 得分更均匀,表明该框架能有效缓解 CTM 中的不平等问题。
- MQA 中的不平等缓解:在 MQA 任务中,应用 EquityGuard 框架后,模型在所有种族、性别和 SDOH 类别的错误率显著降低。如 LLaMA38B使用该框架后,平均错误率从 21.2% 降至 19.8%,尤其在原本不平等问题较严重的类别中,改善更为明显。
- 增强的公平性指标:计算 LLaMA38B模型的平等机会(EO)和人口统计学均等(DP)指标发现,使用 EquityGuard 的模型 EO 和 DP 差异减小,意味着公平性显著提升。
研究结论与讨论
研究表明,EquityGuard 能显著缓解 LLMs 在 CTM 和 MQA 任务中的不平等问题。它使模型在不同人口统计类别中的表现更一致,提升了公平性指标,有助于在医疗人工智能系统中实现更公平的决策过程,对解决健康差距、确保公平医疗服务意义重大。
不过,该研究也存在一些局限性。在识别和处理数据集中的社会人口决定因素时,准确性有待提高;平衡偏见缓解和任务性能仍是挑战,较小模型在加入对比损失后,任务准确性会有所下降;LLMs 的随机行为可能导致医疗应用中的风险,且研究仅针对文本任务,未涉及医学成像领域的偏见缓解。此外,研究考虑的 SDOH 因素有限,评估指标也可能无法涵盖医疗领域的所有公平维度。未来研究可从改进社会人口决定因素的检测方法、探索参数高效技术平衡性能与公平性、研究集成方法减少模型随机性以及扩展研究因素和评估指标等方面展开。