使用ChatGPT4探究疼痛管理和患者画像中的偏见问题

时间:2026年2月1日
来源:The Journal of Emergency Medicine

编辑推荐:

本研究探讨大语言模型cGPT-4在不同患者人口学变量下疼痛管理建议的一致性和公平性。通过模拟6种临床场景(偏头痛、胸痛、DVT等),系统调整种族、住房状况、语言能力及OUD病史等变量,结果显示ED和出院药物推荐达成82%和78%的高一致率,但对有OUD病史的患者推荐了更保守的 opioid-sparing 方案,符合临床安全规范。研究指出AI需持续优化以减少偏见,在医疗决策中可辅助实现更公平的照顾。

广告
   X   

作者:Chanel Fischetti、Emily H. Frisch、Giovanni Rodriguez、Andrew D.A. Marshall、Rebecca E. Cash、Melissa Meeker、Scott G. Weiner
布拉格姆妇女医院急诊医学系:75 Francis Street, Boston, MA 02115

摘要

背景

大型语言模型(LLMs),如ChatGPT(cGPT),正越来越多地被整合到临床工作流程和医学教育中。然而,人们仍然担心这些模型可能存在偏见,尤其是在疼痛管理等高风险领域,因为在这些领域中,种族、社会经济地位和药物使用史等方面的差异已经得到了充分记录。

目的

本研究调查了在改变患者人口统计变量后,cGPT-4是否能生成一致且公平的疼痛管理建议。

方法

研究人员使用cGPT-4创建了六个代表常见疼痛症状的临床场景(例如偏头痛、胸痛、深静脉血栓形成(DVT))。每个场景都经过系统修改,以反映不同患者的人口统计特征,包括种族、住房状况、语言能力以及阿片类药物使用障碍(OUD)的历史。三名研究人员向cGPT-4输入了总共60条提示,并使用Fleiss’ Kappa和Gwet’s AC1统计方法来比较输出结果的一致性。

结果

研究人员之间的一致性总体较高(急诊用药82%,出院用药78%)。使用cGPT时,种族、语言和社会经济地位等因素通常不会改变建议。然而,有阿片类药物使用障碍史的患者总是收到不同的疼痛管理建议——通常是减少阿片类药物使用的方案——这表明cGPT能够响应临床相关的安全问题。在偏头痛和坐骨神经痛病例中观察到了特定场景下的差异。

结论

cGPT-4在处理不同患者特征时,通常能够生成一致且公平的疼痛管理计划。尽管在与阿片类药物使用障碍相关的场景中观察到了偏见,但这种偏见似乎与临床最佳实践相符。这些发现表明,如果得到适当的监控和优化,大型语言模型可以支持医疗决策中的公平性。持续的评估和提示工程对于减少不必要的偏见并在临床环境中最大化其效用至关重要。

引言

在医疗保健环境中使用人工智能(AI)大型语言模型(LLMs),包括cGPT,在医学教育和辅助医疗决策方面引起了广泛关注。1,2值得注意的是,最近的一项研究表明,cGPT在医学执照考试中取得了及格分数,证明了其知识水平与医学生相当。3,4研究人员还探讨了AI如何进一步解决健康不平等问题,以促进健康公平。5所谓的“提示工程”是指设计和创建更结构化的语言,以最大化AI的响应和输出。
机器学习模型已被用于根据社会决定因素(SDoH)预测心血管疾病的风险,但输入数据是模型的主要挑战。6同样,基于SDoH数据的神经网络AI模型能够识别需要处方提醒的Medicare受益者,并识别可以从协助中受益以改善药物依从性的患者。7尽管这些模型显示出潜力,但如果没有了解根本原因,它们仍然容易受到偏见的影响8。此外,所使用的数据在年龄、种族和社会经济地位方面往往具有同质性,这可能会限制其在现实世界人群中的表现。7
随着AI开始影响医疗决策,必须考虑到医疗数据中的输入或普遍存在的偏见可能在这些工具中得到体现。先前的研究表明,与白人患者相比,少数族裔在疼痛控制方面得到的支持较少。9这些差异的根本原因多种多样,涉及系统性偏见、文化沟通不畅以及限制医疗服务的社会经济障碍。同样,其他弱势群体(如有多重药物使用障碍的患者)也因污名或偏见而在疼痛控制方面面临挑战。10疼痛管理不当的后果非常严重,包括恢复时间延长、慢性疼痛风险增加和生活质量下降。如果要将LLMs用于医疗决策,就需要探讨这些模型输出中可能体现的人类偏见。
像AI这样的创新为减轻临床决策中的无意识偏见提供了有希望的途径,至少在理论上,可以消除疼痛管理中的人为主观性。目前,AI的贡献程度取决于其原始数据的质量,因此继续学习和改进现有工具非常重要。11通过大量数据,AI能够过滤图像、问题和内容。建模过程的一部分应继续包含人类反馈,这是维护基于民主系统的AI和cGPT的完整性和伦理性的关键部分。12,13如果以这种方式进行优化,AI在医疗保健中的应用有可能减轻决策负担,使临床决策者能够更专注于患者的需求,采取更加个性化的患者中心方法。最重要的是,使用文化和种族中立的模型可以使护理更加基于证据,并总体上更加公平。
本研究的目的是模拟并调查在将cGPT作为临床资源时,种族、社会经济状况和医疗历史差异对疼痛管理建议的影响。我们选择关注疼痛管理,因为疼痛是急诊科(ED)就诊的常见原因,并且文献中明确记载了不同患者群体在疼痛管理方面的差异。

研究设计与设置

研究设计与设置

我们评估了cGPT在(1)不同研究人员之间以及(2)九种人口统计变体下的六个临床场景中生成一致疼痛管理计划的能力。我们使用了由OpenAI开发的cGPT 4.0版本15,该版本能够更好地理解、推理并生成更可靠的交互。它的能力包括生成类似人类理解的文本响应,并已被用于临床决策的模拟2

结果

cGPT共评估了60个场景(表1)。根据Kappa和Gwet的结果,所有研究人员之间存在一定的差异。具体来说,在场景F(深静脉血栓形成)的急诊用药建议上,三位研究人员之间的一致性较低;Gwet AC1:0.22 [-0.38, 0.81],Fleiss’ Kappa 0.11 [-0.53, 0.75](表2)。此外,在场景A(偏头痛)的出院用药建议上,三位研究人员之间也有一定程度的一致性

讨论

在过去的十年中,特别是在COVID-19危机之后,我们的医疗系统强调了实现健康公平的必要性。16,17为了解决这个问题,我们必须承认技术在加剧或减少这些差异方面起着关键作用17,18。关于cGPT、LLMs和AI的未来,最紧迫的问题是确定实施限制的适当情况以及何时允许更大的灵活性。

结论

总之,这项研究表明,临床决策领域的AI模型确实考虑了重要的因素,如住房不稳定、先前的阿片类药物使用障碍或种族。具体来说,cGPT利用启发式方法和风险因素来适当调整有阿片类药物使用障碍史患者的建议,最终反映了某种“最佳实践”形式的偏见。
随着AI和精准医学的发展以及数据的普及,有机会构建和

文章总结

  • 为什么这个话题重要?
    疼痛管理方面的差异,尤其是在种族、社会经济地位和药物使用史方面的差异,已有充分记录。随着像Chat GPT(cGPT)这样的AI工具在医疗保健中的整合,了解这些工具是否会加剧或减轻这些偏见至关重要。
  • 这篇综述试图说明什么?

资金支持

部分研究资金来自Scott Weiner博士的继续医学教育账户,用于支持数据和统计分析工作。

披露

CF在PontRx和Centaur Labs持有股权。CF是Philips Ultrasound的付费顾问。EF接受了Centaur Labs的报酬,并且是EMD Serono的顾问。AM目前受雇于Google Cambridge,但手稿完成时尚未入职。AM是iDoc Telehealth Solutions的付费顾问。SW是Vertex Pharmaceuticals的科学顾问委员会成员。

参考文献

  • 1.
    Hirosawa T, Harada Y, Yokose M, Sakamoto T, Kawamura R, Shimizu T. 生成预训练Transformer 3聊天机器人生成的临床案例鉴别诊断列表的诊断准确性:一项初步研究。国际环境研究与公共卫生杂志. 2023;20(4):3378.
  • 2.
    Rao A, Pang M, Kim J, 等. 评估ChatGPT在整个临床工作流程中的效用。MedRxiv. 2023:2023.02.21.23285886.
  • 3.
    Gilson A, Safranek CW, Huang T, 等

作者贡献声明

Chanel Fischetti:撰写 – 审阅与编辑、撰写 – 原始草稿、监督、资源管理、项目管理、方法论、调查、数据分析、概念化。Emily H. Frisch:撰写 – 审阅与编辑、撰写 – 原始草稿、调查、数据分析。Giovanni Rodriguez:撰写 – 审阅与编辑、撰写 – 原始草稿、资源管理、项目管理、方法论、调查、数据分析、

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:CF在PontRx和Centaur Labs持有股权。CF是Philips Ultrasound的付费顾问。EF接受了Centaur Labs的报酬,并且是EMD Serono的顾问。AM目前受雇于Google Cambridge,但手稿完成时尚未入职。AM是iDoc Telehealth Solutions的付费顾问。SW是Vertex Pharmaceuticals的科学顾问委员会成员。

生物通微信公众号
微信
新浪微博


生物通 版权所有