基于中国DeepSeek与美国主流大语言模型在眼科健康社会决定因素问答中的性能比较与潜在偏见分析

时间:2026年1月9日
来源:Asia-Pacific Journal of Ophthalmology

编辑推荐:

本研究针对LLMs在眼科SDoH知识领域存在的潜在偏见问题,系统评估了8种主流模型(包括DeepSeek-V3、DeepSeek-R1、ChatGPT系列和Gemini系列)对238对真假陈述的判别能力。结果显示DeepSeek-V3以92.0%的准确率领先,且发现模型在儿科眼病(52.4%)和亚洲种族(70.3%)相关陈述中表现显著较差,揭示了LLMs在SDoH认知方面存在的知识缺口和系统性偏差,为医疗AI公平性研究提供了重要依据。

广告
   X   

在人工智能技术席卷医疗领域的今天,大语言模型(Large Language Models, LLMs)已成为眼科医生潜在的智能助手,能够解答专业问题、辅助诊断甚至参与手术规划。然而,这些模型在涉及健康社会决定因素(Social Determinants of Health, SDoH)——那些深刻影响患者出生、成长、生活和工作环境的社会性因素——的问题上表现如何,却是一个尚未解开的谜题。更令人担忧的是,由于训练数据中可能存在的偏见,这些AI助手是否会在不经意间放大医疗领域已有的不平等现象,成为眼科医疗公平性的"隐形杀手"?
来自约翰斯·霍普金斯大学威尔默眼科研究所的Elizabeth T. Wang等研究者决定揭开这一谜底。他们敏锐地意识到,虽然LLMs在标准化眼科知识测试中表现优异,甚至超越人类考生,但其对SDoH这一关键领域的理解却鲜有关注。而SDoH恰恰是影响眼科诊疗结局的重要驱动因素,涉及种族、性别、年龄、社会经济地位等多维度变量。
为了系统评估主流LLMs在这一领域的真实水平,研究团队设计了一项精巧的实验。他们从已发表的文献中提取了238个经过验证的真实陈述,涵盖年龄相关性黄斑变性、白内障、糖尿病视网膜病变等主要眼病,并针对每个真实陈述创作了直接对立的错误表述。这些陈述对被随机打乱顺序后,呈现给包括DeepSeek-V3、DeepSeek-R1、ChatGPT o1、ChatGPT-4o、ChatGPT-4、ChatGPT-3.5、Gemini 1和Gemini 1.5 Pro在内的8种主流模型进行真假判别。
在技术方法层面,本研究主要采用了以下关键方法:首先通过PubMed系统性文献检索获取SDoH在眼科领域的权威陈述;然后采用人工编辑方式生成直接对立的错误陈述构建测试集;使用标准化的提示词工程统一测试8种LLMs的判别性能;最后利用混合效应逻辑回归模型进行统计学分析,控制眼科亚专业、SDoH分类、种族变量等多重协变量的影响。
研究结果呈现出令人惊讶的发现:
整体模型性能方面,中国开发的DeepSeek-V3模型以92.0%的准确率位居榜首,显著优于5种美国主流模型,与领先的推理模型ChatGPT o1表现相当。这一结果尤其引人注目,因为DeepSeek作为开源模型,其开发成本远低于美国同类产品。
亚专业分析显示,所有模型在视网膜疾病相关陈述中表现最佳(89.8%),而在儿科眼病陈述中集体"翻车",准确率骤降至58.3%。这一差距具有统计学显著性(P=0.016),提示LLMs在儿科眼科知识方面存在明显短板。
种族维度分析更揭示出令人担忧的模式:模型对亚洲种族相关陈述的判别准确率仅为70.3%,显著低于其他种族类别(P=0.044)。这一发现与通常预期的AI偏见模式相反,因为传统研究多关注模型对少数族裔的偏见问题。
个体模型差异分析中发现,ChatGPT 4o和Gemini 1.5 Pro表现出明显的内部性能差异。ChatGPT 4o在亚洲种族陈述上的准确率低至62.5%,而Gemini 1.5 Pro则意外地在白人种族陈述上表现最差(81.8%),这一发现挑战了AI偏见通常针对少数族裔的传统认知。
研究的讨论部分深入剖析了这些发现的重要意义。DeepSeek-V3的优异表现证明,开发成本并非决定模型性能的唯一因素,开源模型同样可以在特定专业领域达到甚至超越商业模型的水平。推理模型(如DeepSeek-R1和ChatGPT o1)的整体优势表明,增强模型的逻辑推理能力可能有助于提升其对SDoH这一复杂社会性因素的理解深度。
最值得关注的是模型在不同种族群体表现差异的发现。传统上,AI偏见研究多聚焦于模型对少数族裔的不公平对待,如奥伯迈耶(Obermeyer)等人2019年发现的医疗预测算法对黑人患者的系统性低估,以及脉搏血氧仪在少数族裔中测量精度下降的问题。而本研究却发现Gemini 1.5 Pro在白人患者相关陈述上表现最差,这一反常现象提示LLMs的偏见模式可能比预期更加复杂和不可预测。
研究者也坦诚指出了本研究的局限性:测试集的规模受限于现有文献覆盖范围,特别是儿科眼病和某些种族群体的数据相对稀缺;真假判别的二元任务设计可能无法完全捕捉SDoH因素之间的复杂交互作用;单次测试可能无法全面反映模型的稳定性。
这项发表于《Asia-Pacific Journal of Ophthalmology》的研究为我们敲响了警钟:在将LLMs引入眼科临床实践之前,必须对其在SDoH领域的知识盲点和潜在偏见进行严格评估。想象一下,如果政策制定者依赖一个有偏见的AI系统来设计糖尿病视网膜病变筛查计划,资源分配的不公可能会被进一步放大。而模型在儿科眼病领域的薄弱表现,则提示我们需要特别谨慎地在儿童眼科应用中使用这些技术。
展望未来,研究者建议探索检索增强生成(Retrieval-Augmented Generation, RAG)技术在这一领域的应用潜力。通过为LLMs配备专门针对SDoH和眼科公平性问题的专业知识库,可能有助于提升其回答的准确性和可靠性。同时,评估LLMs在沟通敏感社会话题时表现出的共情能力和文化敏感性,也将是确保这些技术安全、负责任地融入临床实践的重要步骤。
这项研究不仅为眼科AI应用设立了新的评估标准,更深刻地提醒我们:技术进步必须与公平性考量齐头并进。在追求更高准确率的道路上,我们绝不能忽视每一个患者群体——无论其种族、年龄或社会经济地位——都应获得同等优质的AI辅助医疗服务这一基本伦理原则。

生物通微信公众号
微信
新浪微博


生物通 版权所有