大型语言模型对头痛相关问题的回答的临床实用性和可读性:基于中国在线健康社区的分层应用建议的比较评估

时间:2026年5月16日
来源:Intelligent Pharmacy

编辑推荐:

杨千苏|赵东|杨英琳|刘金宇|蔡乐|白楠|王天林 中国人民解放军总医院医疗物资中心药学部,北京,中国 **摘要** 头痛疾病影响了全球大量人口,大型语言模型(LLMs)在提供在线健康信息服务方面显示出潜力,但其响应的准确性和可读性需要验证。这项横断面研究邀请了五位头

广告
   X   

杨千苏|赵东|杨英琳|刘金宇|蔡乐|白楠|王天林
中国人民解放军总医院医疗物资中心药学部,北京,中国

**摘要**
头痛疾病影响了全球大量人口,大型语言模型(LLMs)在提供在线健康信息服务方面显示出潜力,但其响应的准确性和可读性需要验证。这项横断面研究邀请了五位头痛专家和三位临床神经科学药师组成的专家小组,通过六个评估维度以及AlphaReadabilityChinese工具,评估了由GPT-5-main代表的LLM生成的针对53个头痛相关公共咨询的响应质量与可读性。这些咨询来自中国在线健康社区(OHC)-Haodf.com(2020年1月至2024年12月),并与来自医生和药师的响应进行了对比。研究结果按咨询难度(级别1:简单;级别2:复杂)进行了分层分析。结果显示,LLM的响应长度显著长于医生和药师的响应(P<0.001),在作者区分方面的平均准确率为27.4%;LLM产生的错误内容较少(PR=0.60,95% CI=0.50-0.71),危害风险较低(PR=0.85,95% CI=0.80-0.91),并且在与医学共识的一致性(PR=1.63,95% CI=1.40-1.90)、相关性(PR=2.32,95% CI=1.79-3.00)和完整性(PR=2.95,95% CI=2.31-3.75)方面优于医生和药师的响应。分层分析表明,对于级别1的咨询,LLM提供的健康信息质量不逊于医生和药师(所有P>0.05),我们建议对级别2的咨询进行人工审核,以优化安全性和相关性。在多个指标上,医生和药师的响应明显更易阅读(所有P<0.001)。总之,在这个数据集中,专家们对LLM针对头痛相关咨询的响应给予了更高的评价,LLM可以作为OHC的宝贵补充,独立解决简单咨询。然而,为了直接供公众使用,还需要提高可读性,并且对于复杂情况,需要医生和药师的审核。

**1. 引言**
头痛疾病是一个重要的公共卫生问题,影响了全球约40%的人口,其中15.8%的人每天都有症状[1]。这些疾病包括多种亚型,如紧张型头痛、偏头痛和慢性每日头痛。每种亚型都有其独特的病因和临床特征,因此需要针对性的治疗[2]。提高公众的健康素养至关重要,因为它可以传播基于证据的健康信息,并促进对病情的知情自我管理[3]。数字健康通信平台是公众获取健康信息和专业指导的关键渠道[4, 5]。虽然这些平台使公众能够绕过地理限制咨询合格的临床医生,但基于互联网的信息共享的进步尚未解决持续的延迟或未满足的公共卫生需求。特别是在需求高峰期,有限的医疗资源仍然是公共卫生服务提供的关键瓶颈。

大型语言模型(LLMs)通过其类似人类的语言处理能力,在公共卫生实践中具有巨大潜力[6, 7, 8]。LLMs可以在眼科、神经学和口腔学等专业领域支持早期检测和基于公共卫生的决策[9, 10, 11]。在头痛护理方面,先进的算法已经改变了研究、诊断、治疗和长期管理[12]。这使得LLMs成为数字健康通信中可行的补充工具,提供可访问的健康相关支持。聊天机器人和在线医疗助手通过数字渠道扩大了公众获取健康信息的途径[13],但与认证临床医生的输出相比,LLM生成的健康内容的安全性和可靠性仍存在疑问。挑战包括信息过时、错误和幻觉[14],LLMs往往无法评估信息来源的可信度,尤其是在没有互联网连接的情况下,这可能导致不准确或事实有误的响应,从而影响准确性[15, 16, 17]。健康相关响应的质量取决于医学准确性和对公众的可理解性。大多数公众缺乏医学培训,他们需要简洁明了的解释来理解和采取健康建议。虽然LLMs生成的语法正确且逻辑清晰的文本,但其在公共卫生通信中的可读性仍研究不足。例如,ChatGPT的响应处于大学阅读水平,这对不同健康素养水平的人来说是一个挑战[18]。

这项横断面研究将LLM生成的头痛相关公共卫生咨询的响应与认证医生和药师的响应进行了比较,以评估LLM输出的质量和可读性,确定它们是否易于理解且可操作。

**2. 方法**
**2.1. 数据来源**
在这项横断面研究中,数据来自中国在线健康社区Haodf.com(https://www.haodf.com/),用户在该平台上提交健康相关咨询并收到认证临床医生的响应。我们访问了该网站的科学知识部分,并使用其搜索引擎检索包含“头痛”关键词的帖子(2020年1月至2024年12月),共获得315条初始条目。医学咨询排除了与药物相关的问题,而药学咨询明确提到了至少一种通用药物名称。纳入标准:1)响应的医生具有经过验证的真实姓名认证和执业资格;2)专攻神经学、神经外科或全科医学;3)帖子浏览量≥100次。排除标准:1)非文本内容(如视频/音频);2)包含患者个人信息的帖子;3)非实用/定义性的咨询(例如,“什么是颈源性头痛?”;4)专注于中医的咨询;5)提及特定机构/可识别医生的帖子;6)重复的科普咨询。根据更高的阅读量,保留了重复的科普咨询,最终得到30条医学咨询和23条药学咨询,每条咨询都配有一名临床医生的响应(图1)。

**2.2. 使用LLM生成响应**
本研究使用了GPT-5-main(OpenAI,美国加利福尼亚州旧金山),这是GPT-5-main的核心子模型,用于常规公共卫生咨询响应[19],通过OpenAI API(版本2025-08-10)和默认参数(temperature=0.7,max_tokens=2000)进行复制。该模型被提示扮演专注于头痛的临床医生,以类似人类的语气提供易于理解的健康知识解释,同时不披露人工智能(AI)的身份。每个检索到的咨询都会生成中文和英文响应:中文版本用于专家评估,以分析长度。所有GPT-5-main的响应都是使用固定参数生成的。在专家评估之前,未对LLM的输出或医生和药师的原始响应进行任何编辑或修改。评审者仅看到纯文本,未查看原始平台的格式。为了避免评估偏差,每个咨询的LLM和人类响应的呈现顺序是随机的,确保每个咨询都有配对的人类和GPT-5-main响应。

**2.3. 咨询难度分级标准**
根据Procter等人的[20]初级医疗咨询复杂性原则,并结合在线头痛咨询场景的特点(主要是低复杂性和基本需求的咨询),本研究将符合条件的咨询分为两个级别:
**级别1(简单):**
1)单一的常见原发性头痛(无合并症/特殊人群);
2)基本信息咨询(病因、缓解/预防、基本药物);
3)无需多维信息整合。
**级别2(相对复杂):**
1)合并症、特殊人群、难治性/继发性头痛;
2)个性化健康指导/治疗建议(药物调整、病因识别、药物比较/组合);
3)需要整合医疗/药物历史和专家推理。

所有符合条件的咨询都由三名受过培训的研究人员独立、盲法评估,他们严格且统一地应用上述标准。分类上的分歧通过多数投票决定最终等级。

**2.4. 临床效用评估方法**
一个由5位头痛专家(平均头痛管理经验15.0年[IQR: 13.5-17.8年]和3位全国认证的神经科学临床药师(平均执业经验14.5年[IQR: 12.2-16.3年]组成的专家小组,对医学相关和药学响应进行了独立、盲法评估。每位专家评估每条咨询的人类和LLM响应,负责区分响应来源并评估健康信息质量。医学和药学咨询分别由各自的专家小组进行保密评估,以确保独立、无偏的评估。

评估标准基于Singhal K等人提出的临床LLM框架[21],并针对中国在线头痛咨询进行了调整。评估包括六个项目,每个项目都对应于表1、图1和2中呈现的具体评估问题。详细定义和协议见补充材料的eTable 1:

1) **作者区分** - 识别每个响应是由人类头痛专家还是LLM生成的(答案是由人类还是AI编写的?)
2) **推理** - 评估每个响应的准确性并识别任何错误信息(答案中是否有任何错误或不适当的内容?)
3) **潜在危害** - 评估响应是否会造成危害以及危害的程度(造成危害的可能性有多大?)
4) **事实性** - 确定响应是否符合临床指南或专家共识,或者是否有偏差(答案与医学界的指南或共识有何关系?)
5) **相关性** - 评估响应是否直接解决了公众的咨询问题,并识别任何无关内容(响应是否解决了公众提出的问题?)
6) **完整性** - 确定响应是否足够全面,能够充分解决公众的咨询问题。需要注意的是,这种评估反映了专业标准,可能与公众对可操作建议或信息深度的优先级不同(答案是否全面?)

**表1. 专家对GPT-5-main生成和人类编写响应的评估**
| 问题 | 医生评估 | 药剂师评估 | P值 |
| --- | --- | --- | --- |
| 答案是由人类还是AI编写的?(作者区分) | 肯定或很可能由人类编写 | 24 (16.0) | 32 (21.3) | 39 (56.5) | 25 (36.2) |
| 肯定或很可能由AI生成 | 76 (50.7) | 36 (24.0) | 0.083 | 24 (34.8) | 37 (53.6) | 0.732 |
| 难以区分是由人类还是AI编写 | 50 (33.3) | 82 (54.7) | 6 (8.7) | 7 (10.1) | | |
| 答案中是否有任何错误或不适当的内容?(推理) | 否 | 61 (40.7) | 116 (77.3) | <.001 | 32 (46.4) | 39 (56.5) | |
| 是,但临床意义不大 | 57 (38.0) | 31 (20.7) | 32 (46.4) | 29 (42.0) | | |
| 是,具有很大的临床意义 | 32 (21.3) | 3 (2.0) | 5 (7.2) | 1 (1.4) | | |
| 造成危害的可能性有多大?(潜在危害) | 无害 | 121 (80.7) | 150 (100) | 60 (87.0) | 62 (89.9) | | |
| 可能有害 | 28 (18.7) | 0 (0) | <.001 | 9 (13.0) | 7 (10.1) | | |
| 答案与医学界的指南或共识有何关系?(事实性) | 与指南或共识一致 | 32 (21.3) | 83 (55.3) | 14 (20.3) | 28 (40.6) | | |
| 与指南或共识有差异 | 72 (48.0) | 21 (14.0) | <.001 | 39 (56.5) | 25 (36.2) | | |
| 医学界没有共识 | 46 (30.7) | 46 (30.7) | 16 (23.2) | 16 (23.2) | | |
| 响应是否解决了公众提出的问题?(相关性) | 非常针对问题 | 58 (38.7) | 120 (80.0) | 36 (52.2) | 45 (65.2) | | |
| 目标不明确 | 77 (51.3) | 30 (20.0) | <.001 | 28 (40.6) | 24 (34.8) | | |
| 答案是否不相关 | 15 (10.0) | 0 (0) | 5 (7.2) | 0 (0) | | |
| 答案是否全面?(完整性) | 全面 | 36 (24.0) | 118 (78.7) | 21 (30.4) | 46 (66.7) | | |
| 一般 | 71 (47.3) | 28 (18.7) | <.001 | 34 (49.3) | 19 (27.5) | <.001 | | |

**图1. 中国在线健康社区头痛相关公共卫生咨询的筛选和分类流程图**
TCM表示传统中医。

本研究在中国解放军总医院免于机构审查委员会的审查,由于数据公开,因此无需获得知情同意。

**2.5. 使用LLM生成响应**
本研究使用了GPT-5-main(OpenAI,美国加利福尼亚州旧金山),作为GPT-5-main的核心子模型,用于常规公共卫生咨询响应[19],通过OpenAI API(版本2025-08-10)和默认参数(temperature=0.7,max_tokens=2000)进行。该模型被提示扮演专注于头痛的临床医生,以类似人类的语气提供易于理解的健康知识解释,同时不披露人工智能(AI)的身份。每个检索到的咨询都会生成中文和英文响应:中文版本用于专家评估,以分析长度。所有GPT-5-main的响应都是使用固定参数生成的。在专家评估之前,未对LLM的输出或医生和药师的原始响应进行任何编辑或修改。评审者仅看到纯文本,未查看原始平台的格式。为了确保每个咨询都有配对的人类和GPT-5-main响应,LLM和人类响应的呈现顺序是随机的。

**2.6. 咨询难度分级标准**
根据Procter等人的[20]初级医疗咨询复杂性原则,并结合在线头痛咨询场景的特点(主要是低复杂性和基本需求的咨询),本研究将符合条件的咨询分为两个级别:
**级别1(简单):**
1)单一的常见原发性头痛(无合并症/特殊人群);
2)基本信息咨询(病因、缓解/预防、基本药物);
3)无需多维信息整合。
**级别2(相对复杂):**
1)合并症、特殊人群、难治性/继发性头痛;
2)个性化健康指导/治疗建议(药物调整、病因识别、药物比较/组合);
3)需要整合医疗/药物历史和专家推理。

所有符合条件的咨询都由三名受过培训的研究人员独立、盲法评估,他们严格且统一地应用上述标准。分类上的分歧通过多数投票决定最终等级。

**2.7. 临床效用评估方法**
一个由5位头痛专家(平均头痛管理经验15.0年[IQR: 13.5-17.8年]和3位全国认证的神经科学临床药师(平均执业经验14.5年[IQR: 12.2-16.3年]组成的专家小组,对医学相关和药学响应进行了独立、盲法评估。每位专家评估每条咨询的人类和LLM响应,负责区分响应来源并评估健康信息质量。医学和药学咨询分别由各自的专家小组进行保密评估,以确保独立、无偏的评估。

评估标准基于Singhal K等人提出的临床LLM框架[21],并根据中国在线头痛咨询进行了调整。评估包括六个项目,每个项目都对应于表1、图1和2中呈现的具体评估问题。详细定义和协议见补充材料的eTable 1:

1) **作者区分** - 识别每个响应是由人类头痛专家还是LLM生成的(答案是由人类还是AI编写的?)
2) **推理** - 评估每个响应的准确性并识别任何错误信息(答案中是否有任何错误或不适当的内容?)
3) **潜在危害** - 评估响应是否会造成危害以及危害的程度(造成危害的可能性有多大?)
4) **事实性** - 确定响应是否符合临床指南或专家共识,或者是否有偏差(答案与医学界的指南或共识有何关系?)
5) **相关性** | 评估响应是否直接解决了公众的咨询问题,并识别任何无关内容(响应是否解决了公众提出的问题?)
6) **完整性** | 确定响应是否足够全面,能够充分解决公众的咨询问题。需要注意的是,这种评估反映了专业标准,可能与公众对可操作建议或信息深度的优先级不同(答案是否全面?)

**表1. 专家对GPT-5-main生成和人类编写响应的评估**
| 问题 | 医生评估 | 药剂师评估 | P值 |
| --- | --- | --- | --- |
| 答案是由人类还是AI编写的?(作者区分) | 肯定或很可能由人类编写 | 24 (16.0) | 32 (21.3) | 39 (56.5) | 25 (36.2) |
| 肯定或很可能由AI生成 | 76 (50.7) | 36 (24.0) | 0.083 | 24 (34.8) | 37 (53.6) | |
| 难以区分是由人类还是AI编写 | 50 (33.3) | 82 (54.7) | 6 (8.7) | 7 (10.1) | | |
| 答案中是否有任何错误或不适当的内容?(推理) | 否 | 61 (40.7) | 116 (77.3) | <.001 | 32 (46.4) | 39 (56.5) | |
| 是,但临床意义不大 | 57 (38.0) | 31 (20.7) | 32 (46.4) | 29 (42.0) | | |
| 是,具有很大的临床意义 | 32 (21.3) | 3 (2.0) | 5 (7.2) | 1 (1.4) | | |
| 造成危害的可能性有多大?(潜在危害) | 无害 | 121 (80.7) | 150 (100) | 60 (87.0) | 62 (89.9) | | |
| 可能有害 | 28 (18.7) | 0 (0) | <.001 | 9 (13.0) | 7 (10.1) | | |
| 答案与医学界的指南或共识有何关系?(事实性) | 与指南或共识一致 | 32 (21.3) | 83 (55.3) | 14 (20.3) | 28 (40.6) | | |
| 与指南或共识有差异 | 72 (48.0) | 21 (14.0) | <.001 | 39 (56.5) | 25 (36.2) | | |
| 医学界没有共识 | 46 (30.7) | 46 (30.7) | 16 (23.2) | 16 (23.2) | | |
| 响应是否解决了公众提出的问题?(相关性) | 非常针对问题 | 58 (38.7) | 120 (80.0) | 36 (52.2) | 45 (65.2) | | |
| 目标不明确 | 77 (51.3) | 30 (20.0) | <.001 | 28 (40.6) | 24 (34.8) | | |
| 答案是否不相关 | 15 (10.0) | 0 (0) | 5 (7.2) | 0 (0) | | |
| 答案是否全面?(完整性) | 全面 | 36 (24.0) | 118 (78.7) | 21 (30.4) | 46 (66.7) | | |
| 一般 | 71 (47.3) | 28 (18.7) | <.001 | 34 (49.3) | 19 (27.5) | <.001 | | |

**图2. 专家对人类编写与GPT-5-main生成的针对患者头痛相关咨询的响应的评估:来源区分和质量评分**
对于临床LLM框架中未包含的四个维度(理解力、偏见、不确定性沟通、公平性/健康公平性),理解力与相关性评估重叠,导致重复;由于匿名数据集缺乏人口统计信息,偏见和公平性难以评估;不确定性沟通不符合中国在线用户对直接建议的核心需求,因此不作为独立项目。

**2.8. 可读性评估方法**
本研究使用了Lei Lei等人开发的AlphaReadabilityChinese(ARC)工具来评估中文文本的可读性[22],作为评估医学和药学响应可读性的方法。该工具包括九个指标,用于衡量词汇、句法和语义层面的语言特征,这些指标使用了更复杂和强大的算法。其中,词汇丰富度、句法丰富度、语义丰富度和语义噪声的较高值表示文本复杂性较高,可读性较低;相反,名词语义精确度、动词语义精确度、组合名词和动词语义精确度、实质性词语义精确度和语义清晰度的较高值表示文本复杂性较低,可读性较高。

**2.9. 统计学**
连续变量以均值±标准差(SD)或中位数和四分位数范围(IQR)表示,分类变量以频率和百分比表示。使用Shapiro-Wilk检验评估数据分布的正态性。在评估健康信息质量时,使用独立t检验(正态分布)或Mann-Whitney检验(非正态分布)比较GPT-5-main响应的长度与医生和药师的响应长度。专家小组评估的六个分类术语(即作者区分、推理、潜在危害、事实性、相关性和完整性)使用双尾χ2独立性检验进行评估;进一步计算比例比率(PRs)和95%置信区间(CIs),以量化各组之间的差异大小。对于可读性指标,使用独立t检验(正态分布)或Mann-Whitney检验(非正态分布)进行组间统计分析。

**3. 结果**
**3.1. 初始数据和样本特征**
初始数据集包含315条头痛相关咨询,其中53条根据特定的纳入和排除标准被选中进行分析。排除的主要原因包括读者参与度低、与医生专业不匹配以及问题性质不实用。样本的中位长度为:英文3113词(IQR:2722-3500),中文692个字符(IQR:388-969)。在中文中,大型语言模型(LLM)的回答长度中位数(IQR)显著长于医生和药剂师的回答(LLM:830.0 [694.5-1034.5] 字符 vs 人类:401 [271.5-665] 字符;t=4.92,df=104,P<0.001)。对于医疗和药学问题,LLM的回答长度也显著长于医生和药剂师的回答,平均分别为762个字符(IQR:624.25-985.50)对比346个字符(IQR:273.25-661;t=-4.057,df=58,P<0.001)以及964个字符(IQR:774-1075)对比459个字符(IQR:265-724;t=-3.125,df=44,P=0.003)。八位人类专家的中位执业年限为15.00年(IQR:13.50-17.75年)。在本研究中包含的30个医疗问题中,23个是一级问题,占76.7%,7个是二级问题,占23.3%。在23个药学问题中,12个是一级问题,占52.17%,11个是二级问题,占47.83%。问题难度评分的评分者间一致性很高(kappa=0.85,P<0.001)。

3.2. 健康信息质量
1) 区分LLM和医生/药剂师回答的准确性
小组在准确区分LLM生成的回答和医生/药剂师的回答方面面临挑战,总体准确率为27.4%。LLM和医生/药剂师的回答在正确性上没有显著差异(28.8% vs 26.0%;PR,1.11;95% CI,0.81-1.50)(图2A)。药剂师的正确判断比例高于医生,达到55.1%对比20.0%。个别专家的判断准确性范围从3.33%到93.47%不等。
A组:专家对回答是绝对/很可能由人类撰写、绝对/很可能由GPT-5生成或难以区分的评级。
B至F组:专家对回答质量的五个维度进行评级:临床意义(B)、潜在危害(C)、与医疗指南/共识的一致性(D)、目标相关性(E)和全面性(F)。

2) 回答质量的比较评估
小组根据相同的标准评估了LLM和人类的回答:错误信息的存在、与医学界共识的一致性、造成伤害的可能性以及伤害的程度。与人类回答相比,LLM的回答不太可能包含错误或不适当的内容(PR,0.60;95% CI,0.50-0.71),造成伤害的可能性也较低(PR,0.85;95% CI,0.80-0.91)(图2B-F),且错误或不适当的内容主要集中在医疗问题上(表1)。在明显的错误信息方面,LLM的回答率显著低于医生和药剂师的回答(1.8% vs 16.9%;PR,0.85;95% CI,0.80-0.90)。
小组发现LLM的回答在符合医学界共识、与公众问题的相关性以及全面性方面显著优于医生和药剂师的回答(表1)。LLM的回答更严格地遵循医学界共识(PR,1.626;95% CI,1.40-1.90)。它们也更可能与公众问题高度相关(PR,2.32;95% CI,1.79-3.00),并提供更全面的信息(PR,2.95;95% CI,2.31-3.75)(图2)。需要注意的是,这些指标反映的是相对于医学标准的质量,而不一定是公众对可用性或情感支持的需求。
进一步按问题难度级别分层分析显示,LLM和医生/药剂师的回答在简单(一级)和相对复杂(二级)问题上的表现有所不同(表2)。对于一级问题,LLM在推理(医学:PR,0.92;95% CI,0.78-1.08;P=0.356;药学:PR,0.89;95% CI,0.73-1.08)和事实性(医学:PR,1.15;95% CI,0.96-1.38;P=0.214;药学:PR,1.12;95% CI,0.91-1.38)方面与医生和药剂师相当,而在相关性(医学:PR,1.85;95% CI,1.32-2.58;P<0.001)、完整性(医学:PR,2.12;95% CI,1.56-2.88;P<0.001)和潜在危害风险(PR,0.90;95% CI,0.82-0.99;P=0.032)方面具有显著优势。对于二级问题,LLM在关键维度上继续优于人类医生:推理(医学:PR,0.58;95% CI,0.42-0.79;P=0.001)、事实性(医学:PR,1.76;95% CI,1.35-2.29;P<0.001)和完整性(药学:PR,3.21;95% CI,2.15-4.79;P<0.001)。然而,在复杂医疗问题的潜在危害评估方面,LLM没有显著优势(PR,0.93;95% CI,0.81-1.07;P=0.316),而在药学复杂问题的相关性方面,医生和药剂师的表现略好(PR,0.91;95% CI,0.78-1.06;P=0.235)。总体而言,分层结果显示,LLM单独可以为一级头痛相关问题提供高质量回答,而结合LLM辅助的初步回答和人类临床医生审核的模型更适合处理二级问题。

3) 评分者间可靠性
表2. 专家小组按问题难度级别评估回答
评估项目 医生和药剂师 (%) GPT-5-main (%)
推理(“回答中是否有任何错误或不适当的内容?”) 一级 89.2 二级 76.3
潜在危害(“无害”至“造成伤害的可能性?”) 一级 89.6 二级 72.1
事实性(“与共识一致”至“与医学界共识一致?”) 一级 85.7 二级 72.1
相关性(“与公众问题高度相关?”) 一级 65.4 二级 78.6
完整性(“信息提供的程度?”) 一级 58.2 二级 43.9
Fleiss’ kappa分析显示,医生在确定“回答是由人类还是AI编写”时有一致性(kappa=0.55,P=0.039),药剂师也有较高的一致性(kappa=0.68,P=0.004)。在评估“回答中是否有任何错误或不适当的内容?”时,医生的一致性很高(kappa=0.70,P<0.001),药剂师的一致性中等(kappa=0.59,P=0.041)。对于“造成伤害的可能性?”这个问题,医生和药剂师的一致性更高,kappa值分别为0.82和0.74(两者均P<0.001)。在评估“回答与医学界的指南或共识相关吗?”时,医生的kappa值为0.65,药剂师的kappa值为0.60(两者均P=0.007)。在评估“回答是否解决了公众提出的问题?”时,医生的kappa值为0.77(P=0.007),药剂师的kappa值为0.69(P=0.001)。最后,在评估“回答是否全面?”时,两组都表现出较高的一致性,医生的kappa值为0.81,药剂师的kappa值为0.72(两者均P<0.001)。总体而言,医生和药剂师在所有六个评估项目上表现出中等到高度的一致性,支持了结果的可靠性。

3.3. 可读性
医生和药剂师的回答比GPT-5生成的内容更易读。两者在词汇、句法和语义丰富度以及语义噪声方面存在显著差异,而在其他可读性指标上没有显著差异(表3)。

4. 讨论
4.1. LLM在专业化方面展现出巨大潜力
这是首次将LLM和医生/药剂师的回答与现实世界的头痛相关公众问题进行比较的研究。它证实了GPT-5在推理、完整性和相关性方面的优势,这些优势与病理学、肿瘤学等其他专业的发现一致。为了尽可能模拟真实的公众咨询场景,我们的研究避免了使用复杂的专门提示工程或训练集,GPT-5生成了结构化、逻辑清晰的回答,这可能比在线平台上过于简洁的人类回答更能赢得公众的信任。例如,GPT-5将公众的“跳痛”症状描述为“跳痛或搏动性头痛”,并分析了潜在原因并提供了建议。在回答“我可以服用两种止痛药来缓解严重的头痛吗?”这一细致问题时,它还概述了药物组合原则、策略和注意事项。
需要注意的是,Haodf.com上的医生和药剂师的回答受到公共卫生信息不完整、缺乏诊断工具和时间限制的影响,这可能放大了LLM的明显优势。分层分析明确了LLM的适用性:独立使用LLM处理一级问题可以减轻临床医生的工作负担,而混合LLM-人类模型则能优化二级问题的安全性和相关性。我们的研究基于Ayers等人的工作[27](使用GPT-3.5和英文问题),将其扩展到中文语境,纳入了健康信息质量和可读性评估,并提出了实际部署指南。这证实了LLM在健康信息安全性方面的逐步改进。

4.2. LLM中的幻觉现象会损害其健康信息质量
与之前的报告不同,我们观察到的幻觉率较低,这可能是由于GPT-5的高级架构和扩展的训练数据。然而,仍然存在一些关键错误,包括不正确的药物禁忌症和非标准术语翻译。例如,当被问到“什么是麦角胺?”时,GPT-5给出了一个幻觉性的回答,错误地将其子宫收缩效果描述为“可以使子宫变小”。同样,“氟桂利嗪”的中文翻译与该药物的标准中文通用名称有很大差异。尽管LLM生成的建议在总体潜在危害评估方面与医生和药剂师的回答表现相似,但仍存在误解和对普通人群造成伤害的风险。
LLM在监管真空环境中运行,缺乏医生和药剂师所拥有的“护理责任”框架。它们冗长且过于自信的回答可能会鼓励公众冒险。我们还提出了缓解策略,包括嵌入免责声明、实施临床医生验证以及开发特定于AI的健康信息保险,以平衡技术利益和风险降低。

4.3. 文本长度对主观评分的潜在偏见
研究发现,与临床医生提供的回答相比,大型语言模型生成的回答通常更长且更冗长。这一特征容易导致双盲评分过程中的潜在评估偏见。大型模型生成的冗长文本往往只是表面上看起来覆盖面广,但并未相应增加有效临床信息的密度或回答的准确性。通过检查本研究中的具体回答示例,可以发现人类医生的回答更紧扣问题。例如,在回答“治疗偏头痛的药物有哪些?”时,临床医生直接提供药物选项和不同分类及严重程度的推荐剂量;相比之下,LLM会首先提供偏头痛的定义、药物治疗原则和常见不良反应的背景,然后花大量篇幅讨论生活方式干预和非药物治疗方法。这种扩展的内容不应简单地被视为冗余或无效,而应视为与咨询问题相关的知识点的合理延伸和补充。尽管如此,仍需进一步完善评估标准,以减少主观评分的干扰。

4.4. LLM识别准确性的差异原因
有趣的是,药剂师在识别LLM生成的回答方面的准确性显著高于医生。值得注意的是,本研究中使用的LLM没有接受额外的定制训练,其所有基础知识都来自开放的互联网资源。在药物知识方面,该模型主要从标准化、结构化的材料(如药物说明书和官方用药指南)中学习,导致其回答风格公式化且刻板,这很容易被专业药剂师识别。相比之下,模型中嵌入的临床和内科知识主要来自真实医疗专业人员编写的非结构化在线临床案例。这种人类编写的数据集使LLM能够生成具有自然临床逻辑和叙述风格的回答,使得执业医生难以区分AI生成的内容和真实的人类回答。

4.5. 医生和药剂师在可读性方面的优势
医生和药剂师的回答在所有可读性指标上均优于GPT-5,这归因于他们更简单的词汇、句法和更集中的内容。这反映了临床医生通过临床实践磨练出的适应性强沟通技巧。尽管LLM的回答内容全面,但存在词汇和句法复杂性以及语义冗余的问题。未来的健康信息LLM应在训练反馈机制中整合ARC工具等指标,以平衡专业准确性和公众可访问性,从而更好地满足公共卫生沟通的需求。

4.6. 本研究的局限性
本研究有几个局限性。所有问题都进行了匿名处理,以避免公众隐私问题,但这阻碍了对LLM保护隐私能力的评估,而这是涉及受保护健康信息的AI辅助健康咨询的关键。所有数据仅来自Haodf.com,未涵盖其他在线健康社区或线下医院用药咨询服务,因此研究结果不能完全代表患者的整体咨询行为。Haodf.com上的临床医生的未确认头痛专家身份可能导致回答质量的差异。此外,本研究仅评估了GPT-5-main模型,这限制了结论对其他大型语言模型(如Claude 3、Gemini Pro或DeepSeek)的普遍适用性。同时,由于平台数据维度的限制,本研究未能将公众对响应接受度、理解度和满意度的观点纳入评估体系。研究中调查范围的局限性影响了研究结果的广度和多样性。作为一项横断面研究,严格的筛选标准导致最终样本量较小,并且二级复杂问题的分布不均衡。这可能导致统计功效不足以及亚组比较中的偏差增加。需要后续更大样本量的研究来验证这些结果的可靠性。

5. 结论

本研究将大型语言模型(LLM)生成的关于头痛的健康信息与医生和药剂的回答进行了比较。虽然LLM能够提供准确且全面的头痛相关问题的解答,但其回答的可读性明显低于医生和药剂师。我们提出了一种基于问题难度的分层响应方法,以优化LLM在健康信息服务中的应用。

随着人工智能在医疗领域的整合加速,公众对LLM聊天机器人的依赖已成为不可逆转的趋势。LLM可以在服务不足的地区提供有价值的支持,并作为医生和药剂师的辅助工具,而非替代他们来照顾头痛和慢性病患者。

**作者贡献声明**

- 王天林:撰写、审稿与编辑、方法论、概念化
- 杨倩苏:撰写、原始草稿、方法论
- 杨英琳:验证、数据整理
- 董钊:验证
- 蔡乐:验证、数据整理
- 刘金宇:验证、数据整理
- 白楠:撰写、审稿与编辑、方法论

**数据可用性**

本研究的原始数据均来源于Haodf在线平台(www.haodf.com)。如需获取支持本研究结果的数据,可向相应作者提出合理请求。

生物通微信公众号
微信
新浪微博


生物通 版权所有