引言
随着以ChatGPT为代表的大语言模型(LLM)在医疗健康领域展现出巨大潜力,其在历史悠久的传统医学体系——中医药(TCM)中的应用也备受关注。中医药独特的理论体系、辨证诊断方法以及丰富的经验性知识,既为其现代化发展带来了机遇,也提出了知识传承、标准化与智能化应用等挑战。本研究采用范围综述的方法,系统梳理了LLM在中医药临床实践中的微调技术与应用现状,旨在为未来研究提供参考。
方法
本综述遵循PRISMA-ScR指南,系统检索了截至2025年5月的七个中英文数据库。文献筛选后,最终纳入27项研究(英文21篇,中文6篇)。数据提取涵盖模型特性、微调技术、数据源、评估方法和应用领域等方面,以描述性统计分析为主。
结果
文献筛选结果与纳入研究基本特征
初始检索获得2682篇文献,经去重和筛选,最终纳入27篇。其中,2024年发表的研究最多(74.1%),所有研究均为论文形式(包括会议论文、期刊文章和预印本)。在地域上,26项研究来自中国,1项来自马来西亚。
LLM应用领域
纳入研究主要聚焦两大应用领域:中医药知识咨询与诊断治疗辅助。知识咨询类(10项)可细分为综合知识问答、方剂分类和用药咨询等子方向。诊断辅助类(13项)则包括方剂推荐、集成诊疗和特定疾病诊疗等。此外,还有4项研究专注于建立中医药大语言模型的评估基准。
中医药大语言模型微调技术
技术应用呈现多样化组合趋势。仅13.0%的研究采用单一技术,而87.0%的研究结合了两种或以上技术。最常见的组合模式是“参数高效微调 + 提示工程”(30.4%)和“持续预训练 + 参数高效微调”(26.1%)。在具体技术中,低秩适应(LoRA)微调应用最广泛(65.2%),其次是提示工程(47.8%)、持续预训练(43.5%)和检索增强生成(RAG, 39.1%)。对于参数量在7B及以下的模型,全参数微调和参数高效微调均有应用;对于13B及以上的大模型,则主要采用参数高效微调(93.3%)。
中医药大语言模型训练数据分析
训练数据主要来自七大来源:临床病例数据(73.9%)、中医典籍与教材(65.2%)、中医标准与药典(43.5%)、公共医疗数据集(39.1%)、网络爬取数据(30.4%)、专业考试题库(26.1%)以及专业知识图谱(21.7%)。不同应用领域的数据侧重不同:知识咨询类依赖典籍与问答数据;方剂分类与处方推荐类侧重结构化方剂与药典数据;诊断辅助类则大量使用临床病例以获取真实经验。
大语言模型评估指标
评估指标主要分为三类。第一类是准确性相关指标,最常用的是准确率(63.0%),此外还有精确率、召回率和F1分数等。第二类是自然语言生成指标,如BLEU(双语评估替补, 33.3%)和ROUGE(面向回忆的摘要评估, 37.0%),用于评估生成文本的质量。第三类也是最重要的一类,是人工评估(77.8%),通常由中医专家从专业性、准确性、合理性等多维度进行评分。随着领域应用深入,也出现了TCMBench、TCMD等专门针对中医药的评估基准。
中医药大语言模型的性能局限与常见挑战
尽管取得进展,模型仍面临显著挑战。在标准化基准测试中表现不佳,例如在TCMBench评估中,即便是GPT-4准确率也仅为59.86%。模型在复杂的辨证论治推理和临床决策方面存在缺陷,难以完整模拟从“四诊合参”到“辨证论治”的完整链条,且在体现中医整体思维方面存在局限。信息准确性与“幻觉”问题也备受关注,高达39.1%的研究采用了检索增强生成(RAG)技术来试图缓解此问题。
讨论
主要发现
本综述系统总结了中医药大语言模型微调与应用的工作流程。当前研究呈现出技术组合化、数据多元化、评估专业化的特点。模型在整合异质知识、基础辨证推理和跨语言知识转换方面表现优异,但仅有少数研究(11.1%)针对特定疾病领域,多数仍集中于通用中医药知识处理,这反映了高质量专科临床数据的稀缺。
中医药大语言模型中的关键模式及其启示
分析揭示了三个关键模式:LoRA等参数高效方法主导(65.2%)、多技术组合盛行(87%)、以及多模态数据严重匮乏。这些模式反映了将通用LLM适配到中医药独特知识结构和临床范式时所面临的系统性挑战,其中既有计算资源的限制,也受限于数据生态的构建。
通用大语言模型在中医药应用中的局限性
局限性主要体现在三方面。首先,计算资源约束驱动了参数高效方法的选择,但缺乏针对中医药任务的系统比较研究,无法确定其优势是源于技术本身还是计算必要性。其次,数据生态系统存在缺陷,格式、标注和术语体系缺乏统一标准,且严重缺乏与中医“四诊”相对应的舌象、脉象等多模态数据。最后,评估方法仍有局限,现有框架偏重实验室性能,难以验证模型对完整中医诊疗推理链的掌握,且人工评估缺乏标准化流程。
中医药特定知识与推理挑战
中医药的“整体观”和“辨证论治”核心思想与基于统计模式匹配的现代LLM架构存在根本差异。模型在处理需要跨症状模式识别、阴阳平衡和脏腑系统推理的复杂辨证时显得力不从心。例如,TCM-3CEval基准测试显示,模型在记忆性任务(如药性)上的准确率(51.23%)远高于基于证候的临床推理任务(32.18%)。中医诊断所需的非线性、系统性知识体系难以通过当前的Transformer注意力机制充分建模,且其依赖经验直觉的特点也难以被显性数据完全捕捉。
对未来研究的建议
未来研究方向包括:建立系统化的微调方法评估框架;构建全面的中医药多模态数据生态系统;开发与中医理论契合的评估框架,测试其整体推理能力而非孤立的知识回忆;探索融合阴阳五行、脏腑理论的中医专用模型架构创新;以及加强专家知识整合与临床转化研究,建立符合伦理规范的人机协作模式。
研究局限性
本综述存在一定局限:约37%的纳入研究为未经同行评审的预印本;研究间异质性高,限制了定量比较;检索仅限于中英文文献;对中医药大语言模型涉及的伦理、法律和社会影响的讨论相对有限。