综述：面向中医药领域的大语言模型微调及临床应用范围综述

时间：2026年2月24日

来源：Chinese Medicine

编辑推荐：

这篇范围综述系统梳理了2025年5月前发表的27项研究，旨在分析大语言模型（LLM）在中医药（TCM）领域的微调技术、数据策略、评估方法与应用场景。研究发现，低秩适应（LoRA）微调应用最广（65.2%），常与提示工程、持续预训练等技术组合使用。模型在知识问答和辅助诊断任务中展现出潜力，但在模拟复杂辨证论治过程和体现中医整体观方面面临显著挑战。未来需构建兼容中医知识架构的模型、建立标准化多模态数据生态并开发更贴合中医诊疗过程的评估框架。

引言

随着以ChatGPT为代表的大语言模型（LLM）在医疗健康领域展现出巨大潜力，其在历史悠久的传统医学体系——中医药（TCM）中的应用也备受关注。中医药独特的理论体系、辨证诊断方法以及丰富的经验性知识，既为其现代化发展带来了机遇，也提出了知识传承、标准化与智能化应用等挑战。本研究采用范围综述的方法，系统梳理了LLM在中医药临床实践中的微调技术与应用现状，旨在为未来研究提供参考。

方法

本综述遵循PRISMA-ScR指南，系统检索了截至2025年5月的七个中英文数据库。文献筛选后，最终纳入27项研究（英文21篇，中文6篇）。数据提取涵盖模型特性、微调技术、数据源、评估方法和应用领域等方面，以描述性统计分析为主。

结果

文献筛选结果与纳入研究基本特征

初始检索获得2682篇文献，经去重和筛选，最终纳入27篇。其中，2024年发表的研究最多（74.1%），所有研究均为论文形式（包括会议论文、期刊文章和预印本）。在地域上，26项研究来自中国，1项来自马来西亚。

LLM应用领域

纳入研究主要聚焦两大应用领域：中医药知识咨询与诊断治疗辅助。知识咨询类（10项）可细分为综合知识问答、方剂分类和用药咨询等子方向。诊断辅助类（13项）则包括方剂推荐、集成诊疗和特定疾病诊疗等。此外，还有4项研究专注于建立中医药大语言模型的评估基准。

中医药大语言模型微调技术

技术应用呈现多样化组合趋势。仅13.0%的研究采用单一技术，而87.0%的研究结合了两种或以上技术。最常见的组合模式是“参数高效微调 + 提示工程”（30.4%）和“持续预训练 + 参数高效微调”（26.1%）。在具体技术中，低秩适应（LoRA）微调应用最广泛（65.2%），其次是提示工程（47.8%）、持续预训练（43.5%）和检索增强生成（RAG， 39.1%）。对于参数量在7B及以下的模型，全参数微调和参数高效微调均有应用；对于13B及以上的大模型，则主要采用参数高效微调（93.3%）。

中医药大语言模型训练数据分析

训练数据主要来自七大来源：临床病例数据（73.9%）、中医典籍与教材（65.2%）、中医标准与药典（43.5%）、公共医疗数据集（39.1%）、网络爬取数据（30.4%）、专业考试题库（26.1%）以及专业知识图谱（21.7%）。不同应用领域的数据侧重不同：知识咨询类依赖典籍与问答数据；方剂分类与处方推荐类侧重结构化方剂与药典数据；诊断辅助类则大量使用临床病例以获取真实经验。

大语言模型评估指标

评估指标主要分为三类。第一类是准确性相关指标，最常用的是准确率（63.0%），此外还有精确率、召回率和F₁分数等。第二类是自然语言生成指标，如BLEU（双语评估替补， 33.3%）和ROUGE（面向回忆的摘要评估， 37.0%），用于评估生成文本的质量。第三类也是最重要的一类，是人工评估（77.8%），通常由中医专家从专业性、准确性、合理性等多维度进行评分。随着领域应用深入，也出现了TCMBench、TCMD等专门针对中医药的评估基准。

中医药大语言模型的性能局限与常见挑战

尽管取得进展，模型仍面临显著挑战。在标准化基准测试中表现不佳，例如在TCMBench评估中，即便是GPT-4准确率也仅为59.86%。模型在复杂的辨证论治推理和临床决策方面存在缺陷，难以完整模拟从“四诊合参”到“辨证论治”的完整链条，且在体现中医整体思维方面存在局限。信息准确性与“幻觉”问题也备受关注，高达39.1%的研究采用了检索增强生成（RAG）技术来试图缓解此问题。

讨论

主要发现

本综述系统总结了中医药大语言模型微调与应用的工作流程。当前研究呈现出技术组合化、数据多元化、评估专业化的特点。模型在整合异质知识、基础辨证推理和跨语言知识转换方面表现优异，但仅有少数研究（11.1%）针对特定疾病领域，多数仍集中于通用中医药知识处理，这反映了高质量专科临床数据的稀缺。

中医药大语言模型中的关键模式及其启示

分析揭示了三个关键模式：LoRA等参数高效方法主导（65.2%）、多技术组合盛行（87%）、以及多模态数据严重匮乏。这些模式反映了将通用LLM适配到中医药独特知识结构和临床范式时所面临的系统性挑战，其中既有计算资源的限制，也受限于数据生态的构建。

通用大语言模型在中医药应用中的局限性

局限性主要体现在三方面。首先，计算资源约束驱动了参数高效方法的选择，但缺乏针对中医药任务的系统比较研究，无法确定其优势是源于技术本身还是计算必要性。其次，数据生态系统存在缺陷，格式、标注和术语体系缺乏统一标准，且严重缺乏与中医“四诊”相对应的舌象、脉象等多模态数据。最后，评估方法仍有局限，现有框架偏重实验室性能，难以验证模型对完整中医诊疗推理链的掌握，且人工评估缺乏标准化流程。

中医药特定知识与推理挑战

中医药的“整体观”和“辨证论治”核心思想与基于统计模式匹配的现代LLM架构存在根本差异。模型在处理需要跨症状模式识别、阴阳平衡和脏腑系统推理的复杂辨证时显得力不从心。例如，TCM-3CEval基准测试显示，模型在记忆性任务（如药性）上的准确率（51.23%）远高于基于证候的临床推理任务（32.18%）。中医诊断所需的非线性、系统性知识体系难以通过当前的Transformer注意力机制充分建模，且其依赖经验直觉的特点也难以被显性数据完全捕捉。