中药处方审核新基准:TCMEval-PA数据集构建与大语言模型能力评估

时间:2025年12月24日
来源:Scientific Data

编辑推荐:

为解决大语言模型(LLMs)在中医药处方安全审核领域缺乏标准化评估工具的问题,研究团队开发了首个专注于中药处方审核的问答基准数据集TCMEval-PA。该研究基于18项权威审核规则构建了328道选择题,系统评估了主流LLMs在处方规范性(Normativity)和适宜性(Appropriateness)两个维度的表现。结果显示通用模型(如Qwen-Plus准确率达86.05%)显著优于专业中医模型(如ShenNong-TCM-LLM仅8.14%),揭示了当前专业模型在安全关键任务中的知识盲区,为智能审方系统开发提供了重要基准。

广告
   X   

随着人工智能在医疗领域的快速渗透,大语言模型(LLMs)正逐渐成为医患咨询、辅助诊断的重要工具。然而在中医药这一复杂体系中,模型生成内容的可靠性问题尤为突出——当患者向AI咨询中药配方时,模型可能会忽略"十八反"(Shiba Fan)这样的经典配伍禁忌,或推荐超出《中国药典》规定的毒性中药剂量,这种"幻觉"(hallucination)现象可能直接导致临床用药风险。尽管已有研究开始关注中医领域LLMs的评估,但多数聚焦于辨证论治或方剂生成等任务,缺乏针对处方审核这一高风险场景的标准化测评体系。
正是在这样的背景下,由北京中医药大学东直门医院与中国中医科学院中医药信息研究所等单位合作的研究团队,在《Scientific Data》发表了题为"TCMEval-PA: a question-answering benchmark dataset for the prescription audit of Traditional Chinese Medicine"的研究论文。该研究构建了首个专门针对中药处方审核的问答基准数据集,系统评估了多款主流LLMs在确保中药用药安全方面的能力缺口。
研究团队采用规则驱动的方法构建评估体系。首先从《中药处方审核规范》等权威文件中提取18项核心审核规则,划分为处方规范性(9项)与适宜性(9项)两大维度,涵盖配伍禁忌、毒性药材剂量、煎服法标注等关键风险点。基于此开发了328道选择题(297道单选/31道多选),题目来源严格限定于执业药师考试用书等非公开出版物,避免数据泄露风险。每个题目均标注对应的规则编号,并由执业中医师双重审核确保临床相关性。
技术方法上,研究主要包含三个关键环节:基于权威标准的审核规则提取、采用广度与深度兼顾的题目设计策略(规则理解题+场景应用题)、通过医师独立标注与药师仲裁的质量控制机制。最终数据集通过Figshare平台开放获取,包含题目、选项、答案、规则映射等结构化字段。
数据记录部分显示,TCMEval-PA最终包含326道有效题目(后续校正后),其中规范性维度86题,适宜性维度236题,基本概念6题。数据字段设计强调可追溯性,每个问题均关联具体审核规则(如A-003对应单味药剂量限制规则),并附有权威来源的解释说明。
技术验证结果令人意外:在评估的5个模型中,通用LLMs全面碾压专业中医模型。Qwen-Plus(2025-04-28)在规范性维度达到86.05%的准确率,而专为中医优化的ShenNong-TCM-LLM模型仅获得8.14%的惨淡成绩。在禁忌配伍(A-007)、剂量控制(A-003)等高风险规则上,专业模型表现出系统性知识缺陷。这表明当前所谓"领域专家模型"可能过度依赖语料规模而忽视了规则化知识的精准学习。
使用说明部分强调了数据集的三大优势:全覆盖性(18项规则无遗漏)、答案明确性(避免主观歧义)、维度可解析性(支持薄弱环节定位)。研究者特别说明,该基准并非替代临床审核流程,而是为模型优化提供可量化的"中间指标",未来可延伸至真实处方文本的开放式审核任务。
这项研究的结论明确指出,当前LLMs在中药安全关键任务上存在显著隐患。专业中医模型尽管经过海量文献训练,却未能掌握处方审核的基础规则体系,这种"知识广度代替不了精度"的现象警示我们:医疗AI的安全性评估需要更精细的测量工具。TCMEval-PA作为首个中药处方审核专用基准,不仅为模型改进提供了导航图,更推动了医疗AI评估范式从"常识问答"向"规则合规"的转变。随着智能审方系统在各级医院的推广,这种基于权威标准的评估框架将成为保障AI临床应用的基石工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有