### 研究背景
人工智能(AI)在医疗领域取得进展,能解读多种医疗数据,但在复杂临床场景存在局限,如跨学科诊断困难、数据结构化繁琐且易丢失信息。大型语言模型(LLMs)虽有潜力,但训练数据缺乏医学专业性。领域特定模型有所改进,但在罕见病诊断、急诊识别和多模态数据整合方面仍有挑战。因此,开发 MetaGP 模型以应对这些问题。
MetaGP 模型开发
MetaGP 以 Qwen-1.5 32B 为基础架构,通过预训练和微调两个阶段进行开发。预训练使用包含 800 多万 EHRs、540 万学术文章和 15731 本医学书籍的大规模数据集,涵盖数据聚合、标记化等过程,让模型学习医学知识。微调阶段使用约 63 万份罕见病和急诊 EHR 记录、超 60 万张胸部 X 光(CXR)和近 2.4 万张计算机断层扫描(CT)的多模态成像数据、医学问答(QA)问题及自然语言数据,优化模型在特定任务上的表现。
评估框架
采用多方面评估方法,结合临床数据集和严格方法,综合医生手动评分和自动指标,评估 MetaGP 在诊断罕见病、识别急诊和生成多模态医学报告方面的能力。临床数据集包含私人 EHR 数据和 PubMed 公共病例报告,按罕见病和急诊分类。手动评估对比 AI 与人类诊断能力,自动指标如 F1 分数、准确率等提供定量分析。对于放射成像,同样结合手动分级和自动指标评估。
MetaGP 的性能表现
- 罕见病诊断:在手动评估中,MetaGP 诊断 97 例罕见系统性疾病的平均得分为 1.57,高于 GPT-4 的 0.93,与高级全科医生相当。76.3% 的诊断获最高分 + 2,体现高准确性。自动评估中,在 958 例罕见病病例上,MetaGP 准确率达 0.698,F1 分数为 0.754,远超 GPT-4 和 BERT。此外,MetaGP 能辅助医生提高诊断准确率,减少有害诊断。
- 急诊识别:手动评估 109 例系统性急诊病例时,MetaGP 平均得分 1.59,高于 GPT-4 的 1.19,与资深急诊医生相近。大部分诊断(74.3%)获 + 2 分,可靠性高。自动评估 2769 例急诊病例,MetaGP 准确率 0.702,F1 分数 0.783,表现优于 GPT-4 和 BERT。MetaGP 也有助于急诊医生提高诊断准确率,降低有害诊断风险。
- 多模态医学报告生成:在 CXR 和 CT 报告生成任务中,MetaGP 优于 LLaVA-Med 和 Med-Flamingo。八名放射科医生盲审发现,MetaGP 生成的 CXR 报告在 53.8% 的病例中受青睐或被评为与医生报告等效,CT 报告中两者质量相当,且初级放射科医生更倾向于 AI 生成的报告。
讨论
MetaGP 在罕见病诊断、急诊识别和多模态报告生成方面优于现有模型,能减少有害输出,提高医生诊断准确率,在多模态成像报告生成上有优势。模型设计注重减少偏差,但其较小的模型规模可能限制知识编码,决策透明度也有待提高。未来需进一步训练优化,计划开源让医学社区微调,通过随机对照临床试验和用户反馈验证其影响。
研究局限
MetaGP 模型规模小于行业标准 LLMs,可能影响知识编码和保留能力。其决策透明度不足,在关键医疗场景中理解诊断输出依据对临床医生至关重要。此外,存在伦理考量,需优化人机交互和标准化评估,以减少过度依赖和偏差。团队正开展相关工作改进这些问题。
资源可用性
如需资源和试剂,可联系主要联系人 Kang Zhang(kang.zhang@gmail.com)。使用的学术文章可从 PubMed Central 下载,部分文本数据来自公开数据集。EHR 数据使用受限,经参与者许可用于本研究,去标识化数据可向相应作者申请获取。代码和模型将在
https://t.ly/B2DPz发布。