ChatGPT-4o作为乳腺癌患者分诊工具的诊断准确性与临床适用性评估

时间：2025年9月9日

来源：JCO Oncology Advances

编辑推荐：

本研究通过模拟医患交互实验，评估了ChatGPT-4o和ChatGPT-o1pro在乳腺癌门诊分诊场景中的表现。结果显示，LLM（大语言模型）在89%的案例中能准确列出首要诊断，98%的案例包含正确鉴别诊断，92%的分诊建议被评为高度适宜，且未出现危险建议。这为AI（人工智能）在肿瘤科分诊中的临床应用提供了安全性证据。

Abstract

这项研究评估了公开可用的大语言模型（LLM）在乳腺癌临床分诊场景中的诊断准确性和医学适用性。通过标准化模拟患者交互实验，发现ChatGPT-4o和ChatGPT-o1pro能高效完成病史采集、鉴别诊断和分诊建议，为AI辅助肿瘤分诊的可行性提供了实证支持。

Introduction

随着大语言模型（LLM）在医学领域的探索深入，其在通过标准化考试^2,3、回答医学咨询⁴和生成鉴别诊断^5,6方面已展现潜力。肿瘤科分诊因涉及癌症特异性并发症（如转移灶、治疗毒性）和非癌性疾病（如上呼吸道感染）的鉴别，对时效性和准确性要求极高。本研究创新性地采用医师模拟患者的方式，首次系统评估LLM在动态医患对话中完成乳腺癌分诊全流程的能力。

Methods

研究设计包含66个涵盖辅助治疗、转移性疾病和生存期随访的典型临床场景，由7名医师分别使用ChatGPT-4o和ChatGPT-o1pro进行重复模拟（共132次交互）。通过优化提示工程（Data Supplement, Table S2），要求LLM依次完成：病史追问→诊断→分诊建议→支持性护理方案。采用3分量表评估各环节质量：1分（高度适宜）、2分（合理但次优）、3分（不适宜/危险）。

关键发现包括：