编辑推荐:
为解决大语言模型(LLMs)在中医药处方安全审核领域缺乏标准化评估工具的问题,研究团队开发了首个专注于中药处方审核的问答基准数据集TCMEval-PA。该研究基于18项权威审核规则构建了328道选择题,系统评估了主流LLMs在处方规范性(Normativity)和适宜性(Appropriateness)两个维度的表现。结果显示通用模型(如Qwen-Plus准确率达86.05%)显著优于专业中医模型(如ShenNong-TCM-LLM仅8.14%),揭示了当前专业模型在安全关键任务中的知识盲区,为智能审方系统开发提供了重要基准。
生物通 版权所有