编辑推荐:
本研究通过模拟医患交互实验,评估了ChatGPT-4o和ChatGPT-o1pro在乳腺癌门诊分诊场景中的表现。结果显示,LLM(大语言模型)在89%的案例中能准确列出首要诊断,98%的案例包含正确鉴别诊断,92%的分诊建议被评为高度适宜,且未出现危险建议。这为AI(人工智能)在肿瘤科分诊中的临床应用提供了安全性证据。
Abstract
这项研究评估了公开可用的大语言模型(LLM)在乳腺癌临床分诊场景中的诊断准确性和医学适用性。通过标准化模拟患者交互实验,发现ChatGPT-4o和ChatGPT-o1pro能高效完成病史采集、鉴别诊断和分诊建议,为AI辅助肿瘤分诊的可行性提供了实证支持。
Introduction
随着大语言模型(LLM)在医学领域的探索深入,其在通过标准化考试2,3、回答医学咨询4和生成鉴别诊断5,6方面已展现潜力。肿瘤科分诊因涉及癌症特异性并发症(如转移灶、治疗毒性)和非癌性疾病(如上呼吸道感染)的鉴别,对时效性和准确性要求极高。本研究创新性地采用医师模拟患者的方式,首次系统评估LLM在动态医患对话中完成乳腺癌分诊全流程的能力。
Methods
研究设计包含66个涵盖辅助治疗、转移性疾病和生存期随访的典型临床场景,由7名医师分别使用ChatGPT-4o和ChatGPT-o1pro进行重复模拟(共132次交互)。通过优化提示工程(Data Supplement, Table S2),要求LLM依次完成:病史追问→诊断→分诊建议→支持性护理方案。采用3分量表评估各环节质量:1分(高度适宜)、2分(合理但次优)、3分(不适宜/危险)。
关键发现包括:
病史采集环节:97%的问题被评1分,3%因重复获2分
诊断性能:89%案例正确列出首要诊断(如芳香化酶抑制剂相关尿路症状、inavolisib致高血糖)
分诊建议:92%获1分,8%为2分(如建议非紧急随访而非急诊)
支持性护理:86%方案完整,14%缺失部分要素(如止痛药剂量调整)
Results
ChatGPT-4o展现出显著优势:
效率提升:中位5个问题完成诊断(ChatGPT-o1pro需7个,P=0.002)
支持性护理质量更高(93.94% vs 77.27%获1分,P=0.01)
完全避免自动生成虚拟病例的干扰行为
按临床场景分层显示:
早期疾病组:诊断准确率86.36%(两种模型一致)
生存期组:ChatGPT-4o支持性护理1分率达95.46%
转移组:分诊建议适宜性略低(86.36% vs 77.28%)
Discussion
相较于既往LLM模拟患者的研究(准确率67%)9,本研究的突破在于:
首次验证LLM在动态交互中完成癌症特异性分诊的能力
揭示模型可识别治疗毒性(如免疫治疗相关结肠炎)与癌症进展的细微差别
证明其分诊建议安全性(无3分评价)
局限性在于医师模拟可能高估实际患者交互效果。未来需在真实世界验证LLM对不同健康素养人群的适应性,特别是对新型靶向药物(如CDK4/6抑制剂)不良反应的识别能力。
Conclusion
ChatGPT-4o在乳腺癌分诊中展现出与人类医师相当的诊断准确性和临床判断力,其安全性特征支持开展真实世界应用研究。下一步需重点评估LLM在健康素养差异人群中的鲁棒性,以及实时整合最新医学进展的持续学习机制。
生物通 版权所有