利用生成式人工智能评估医学教育研究的质量:人工智能生成评分与人类MERSQI评分之间的一致性

时间:2026年5月18日
来源:AEM Education and TrainingAEM

编辑推荐:

**摘要** **目标** 随着医学教育研究数量的不断增加,需要高效、可靠且可扩展的方法来进行高质量评估。医学教育研究质量评估工具(MERSQI)被广泛使用,尽管其手动评分过程仍然需要大量资源。本研究评估了大型语言模型(LLMs)使用MERSQI工具评估医学教育研究的准确性

广告
   X   

**摘要**

**目标**
随着医学教育研究数量的不断增加,需要高效、可靠且可扩展的方法来进行高质量评估。医学教育研究质量评估工具(MERSQI)被广泛使用,尽管其手动评分过程仍然需要大量资源。本研究评估了大型语言模型(LLMs)使用MERSQI工具评估医学教育研究的准确性,并将其与人类评估者的结果进行了比较。

**方法**
三种LLMs(GPT-5、Claude Sonnet 4和Gemini 2.5 Pro)对1423篇医学教育研究文章进行了MERSQI领域的评分。作者使用组内相关系数(ICCs)比较了AI生成的评分与人类生成的评分,并通过Bland–Altman图评估了AI和人类生成的MERSQI综合评分之间的一致性。

**结果**
领域级别的ICC值从“公平”(0.24)到“接近完美”(0.81)不等,其中“抽样”、“有效性证据”和“数据分析”领域的共识最低。没有一种LLM在所有领域中始终优于其他模型。AI和人类评分的综合评分一致性较高,且各LLM之间的差异较小(ICC范围:0.65–0.69)。GPT-5生成的综合评分略低于人类评分,而Claude Sonnet 4和Gemini 2.5 Pro生成的评分较高,其中Gemini的偏差最大。Gemini 2.5 Pro的Bland–Altman图显示存在比例偏差,表明其评分与人类评分的一致性随研究质量的不同而变化。

**结论**
这些LLMs在MERSQI综合评分方面与人类评估者有较高的一致性,但领域级别的一致性存在差异。评分模式中的系统差异凸显了在将LLMs整合到系统评价工作流程之前需要人类监督和额外校准的必要性。

---

**1 引言**
严格的质量评估是系统评价的重要方面,因为它们有助于识别低质量的研究并证明综合结论的有效性[1, 2]。质量评估通过评估实证研究的方法学质量和可信度来系统地检查其相关性,以及验证研究的设计、抽样、数据收集、分析和报告是否适当和透明[3]。质量评估通常需要重复进行,因为它们需要大量的人力、时间和专业知识来仔细评估每项研究是否符合预定义的质量标准[4]。随着研究文献量的增加以及文献综述的数量和规模的扩大,这些要求可能会阻碍综合证据的及时报告,或者使研究人员完全放弃进行质量评估。这些日益增长的限制,加上偶然的人为差异、错误和疏忽,强调了需要更高效、一致和可行的方法论。人工智能(AI)在自动化复杂任务和支持大规模数据处理方面显示出潜力。在过去十年中,研究人员越来越多地探索使用机器学习来自动化各种领域(包括循证医学和教育)的质量评估过程。现有的研究质量评估工具包括用于随机对照试验的RobotReviewer[5]和用于生命科学研究的SciScore[6]。类似的人工智能方法也被用于预测国家研究评估中的专家评分,例如英国的研究卓越框架[5, 7]。领域通用和专门的GenAI工具的进步可能通过提高客观性和一致性来增强质量评估的严谨性,尤其是在研究产出量超过传统质量评估工作流程的领域[1]。虽然早期应用令人鼓舞,但使用GenAI进行研究质量评估仍处于起步阶段,需要进一步验证[8, 9]。临床医学领域的文献表明,GenAI有潜力对研究方法进行批判性评估;然而,针对这一特定用例的证据有限[10-12]。例如,只有少数支持系统评价过程自动化的软件工具经过了偏见风险评估的测试,而且大多数仅应用于特定的研究设计,如随机对照试验[10]。并非所有工具都与人类评估者进行了比较,它们通常需要使用更广泛主题的更大数据集进行进一步验证[10]。在一篇关于提高系统评价效率的软件系统综述中,Affengruber等人发现RobotReviewer是唯一被评估为关键评估系统的工具,这突显了其他关键评估系统缺乏性能数据的问题[11]。这些发现强调了验证用于评估研究质量(超出临床试验范围)的新GenAI工具的必要性。这一差距对于医学教育研究尤为重要,因为研究设计往往具有异质性(例如,定性研究、准实验研究和课程评估),并且组成学科可能会进一步增加变异性。例如,急诊医学教育包括基于模拟的程序培训、即时超声课程、住院医师评估和基于团队的临床决策研究,这些研究的结果指标和报告标准往往不一致[13-15]。综合这些学术成果的系统评价必须应对这种复杂性,因为结果可能会影响培训计划的设计、认证标准、临床工作流程以及毕业生提供的患者护理质量[16]。这种固有的变异性使得医学教育成为测试新GenAI系统是否能够在方法学多样化的文献中应用既定评估标准的有用案例。医学教育研究质量评估工具(MERSQI)提供了一种评估实证定量研究方法学质量的成熟机制。先前的研究报告了MERSQI评分的良好到优秀的评分者间可靠性,并显示了较高评分与学术质量标志(包括研究资金和编辑接受决定)之间的关联[17-21]。本研究考察了三种商业LLMs(GPT-5、Claude Sonnet 4和Gemini 2.5 Pro)生成的MERSQI评分与人类生成的评分在综合评分和各个领域评分层面的一致性,以及AI和人类评估者之间是否存在系统性的评分差异。了解GenAI应用MERSQI工具的能力可能支持将其作为第二编码器或在人类监督下自动化某些研究任务。这反过来可能提高医学教育研究综合评估的一致性、可扩展性和常规实施。

---

**2 方法**

**2.1 医学教育研究质量评估工具**
医学教育研究质量评估工具(MERSQI)是一种用于评估医学教育研究方法学质量的工具。它评估六个领域:研究设计、抽样、数据类型、有效性证据、数据分析和结果。每个领域包含具体标准,评分范围从0到3或1到3,具体取决于类别。通过汇总各领域的评分得出MERSQI综合评分,最高分为18分。实际上,建议报告和解释MERSQI领域评分而不是综合评分,以更好地了解研究的方法学优势和局限性。较高的领域或综合评分表明医学教育研究的方法学质量更强[17]。有关本手稿中提到的术语和技术的详细信息,请参见表1。

**2.2 数据收集和资格标准**
本研究比较了AI生成的MERSQI评分与来自先前发表的系统评价的人类生成的评分的准确性。数据集从原始发表的研究中收集MERSQI评分,如果数据未发表,则直接从原始作者处获取。这两种方法同时进行,直到达到至少1000篇MERSQI评分研究的样本量。根据使用R语言[22]和“ICC.Sample.Size”包进行的功效分析,为了检测0.20(轻微一致)与0.30(公平一致)的组内相关系数(ICC),在0.90的功效水平下,至少需要923篇MERSQI评分的研究(k=2评分,双尾,alpha=0.05)。

**2.2.1 方法1——未发表的数据集**
通过MedEdMentor使用关键词“MERSQI”搜索,以识别作者应用了完整MERSQI工具评估至少20篇发表在临床或医学教育期刊上的教育相关研究的综述文章。对于未发布个别研究级别MERSQI评分的综述,我们联系了相应的作者,要求他们提供研究级别的评分。

**2.2.2 方法2——已发表的数据集**
我们通过PubMed使用关键词“MERSQI”找到发布了其研究级别MERSQI数据(例如,在正文中或作为补充附录)的综述。从最新发表的综述开始,我们检查每篇发表的研究,并选择那些具有公开可用数据的综述,直到达到目标样本量。

**2.2.3 资格标准**
我们包括了涉及任何医学教育主题的研究。没有日期或年份限制。排除了相关医疗保健学科/期刊(例如,牙科教育、护理)的作品。我们仅包括了在所有六个领域都使用原始(未修改)MERSQI评分定义的研究级别人类生成MERSQI评分的综述。如果一项原始研究被包含在多篇综述中,则使用第一篇发表的综述中的评分。由于本研究不涉及人类受试者,因此不需要伦理批准。

**2.3 LLMs和提示程序**
选择了三种商业LLMs进行评估:GPT-5(OpenAI,加利福尼亚州旧金山;openai.com)、Claude Sonnet 4(Anthropic,加利福尼亚州旧金山;anthropic.com)和Gemini 2.5 Pro(Google DeepMind,加利福尼亚州山景城;deepmind.google.com)。这些代表了本研究时三个最广泛使用的商业AI平台中最先进的模型。每种模型都被要求评估医学教育研究的方法学质量,以人类生成的MERSQI评分作为参考标准。我们获取了每项包含研究的完整文本PDF,并使用PyMuPDF、pdfplumber或OCR(pytesseract)将其转换为机器可读文本。然后使用Jupyter Notebook和应用程序编程接口(APIs)将每项研究的文本上传到每个LLM。对于GPT-5,将推理努力设置为“最小”,冗长度设置为“低”,其他设置保持默认值。对于Claude Sonnet 4和Gemini 2.5 Pro,将温度设置为0.5(即中等低的随机性),以确保输出更加集中和一致。其他配置保持默认值。我们制定了一个提示,要求生成结构化的JavaScript对象表示法(JSON)输出,包括一句话的文章摘要、MERSQI领域评分、理由和其他元数据。完整的提示协议和JSON模式作为在线文章的补充材料提供(数据S1)。我们对所有三种LLM使用相同的零样本提示,以建立它们的基线性能,而不进行提示优化或改进。结果被汇总到一个pandas DataFrame中,其中领域级别评分被汇总以获得总综合评分,然后导出到带时间戳的Excel文件中以进行进一步处理。这种自动化方法使得对大量医学教育研究文章进行高效、可复制和可扩展的质量评估成为可能。

**2.4 统计分析**
主要结果是每种LLM与人类生成的MERSQI评分在综合评分和各个领域评分层面之间的一致性程度。次要结果是AI和人类评估者之间是否存在系统性的评分差异及其程度。所有统计分析均在SPSS(版本29,IBM公司,纽约州阿蒙克)中进行。每个大型语言模型(LLM)与人类评分者之间的领域和综合评分一致性通过双向随机效应组内相关系数(ICC [1, 2])来评估绝对一致性。由于没有独立于人类判断的“真实”MERSQI分数,因此人类评分被用作参考标准,AI与人类之间的一致性被解释为AI评分准确性的代理指标。一致性使用Landis和Koch的标准进行解释,分为公平(0.21–0.40)、中等(0.41–0.60)、显著(0.61–0.80)和几乎完美(>0.80)[23]。使用重复测量方差分析(ANOVA)检查每个LLM与人类评分者之间的MERSQI分数的系统性差异。效应大小使用部分eta平方(η2)来衡量,并被解释为小(0.01–0.05)、中等(0.06–0.13)或大(≥0.14)效应[24]。alpha值设为0.05,结果以均值(μ)和标准差(SD)报告。Bland–Altman图用于直观评估AI生成的人类MERSQI综合分数之间的一致性。对分数差异进行线性回归,以检测是否存在比例偏差(即,测量差异是否随分数平均值变化)[25]。比例偏差的显著结果(p<0.050)表明所比较的方法在值范围内的一致性不同。

3 结果

3.1 数据收集结果和研究特征总结

3.1.1 来自未发表的数据集
MedEdMentor搜索发现了25篇符合纳入标准的综述文章。这些文章的相应作者被邀请分享他们发表的综述中的文章级MERSQI数据。三位相应作者提供了他们的未发表数据集,总共贡献了1334篇单独评分的文章。

3.1.2 来自已发表的数据集
PubMed搜索返回了174条独特记录,这些记录经过了筛选和全文审查。其中,有三篇已发表的综述,共包含89项MERSQI评分的研究,被添加到数据集中。在收到一位相应作者提供的包含1000多项MERSQI评分研究的大型数据集后,进一步获取其他已发表数据集的工作停止了[26, 27]。最终用于分析的数据集由未发表和已发表的数据集合并而成,共包含1423篇MERSQI评分的文章。这些MERSQI评分的研究发表于1969年至2021年之间。人类MERSQI分数由参与系统综述的研究团队生成。分数要么由单个个体得出(3.0%;43/1423),要么通过两位评审者的盲法独立评审后达成共识得出(97.0%;1380/1423)。然而,关于个别评分者的详细信息,包括他们的正式MERSQI培训水平和经验年限,并未在参与的综述中报告,也无法提取或呈现。所有1423篇文章的MERSQI评估来源和分数生成信息作为在线文章的补充材料提供(表S1)。

3.2 领域评分一致性和分析
在1423篇文章中,对LLM和人类评分者在六个MERSQI领域和综合评分之间进行了评分一致性评估。领域级别的ICC值从公平(ICC=0.24;95% CI=-0.02至0.44)到接近完美的一致性(ICC=0.81;95% CI=0.76至0.84;图1)不等。没有单个LLM在所有领域都优于其他LLM(图1)。ICC值通常在抽样、有效性证据和数据分析领域最低。图2展示了AI与人类的平均领域评分。总体而言,人类倾向于给抽样领域分配更高的分数(p<0.001;η2≥0.14,大效应),而在有效性证据领域分配的分数低于LLM(p<0.001;η2≥0.61,大效应)(图2)。人类和LLM在其余四个领域之间的评分差异的效应大小为中等到小(η2≤0.08)。

3.3 综合评分一致性和分析
与人类评分者的综合评分一致性在三个LLM之间是显著的且相似的(GPT-5的ICC=0.69 [95% CI=0.66至0.72];Claude Sonnet 4的ICC=0.68 [95% CI=0.60至0.74];Gemini 2.5 Pro的ICC=0.65 [95% CI=0.35至0.79];图1)。图3A-C展示了综合评分的Bland–Altman图。GPT-5的负平均值(μGPT-5=11.65,SD=2.02)表明该模型(p=0.002;η2=0.01,小效应)返回的综合评分略低于人类评分者(μHuman=11.79,SD=2.00)。Claude Sonnet 4(图3B)和Gemini 2.5 Pro(图3C)返回的综合评分略高于人类(p<0.001;μClaude Sonnet 4=12.32,SD=2.02,η2=0.12,中等效应;μGemini 2.5 Pro=12.72,SD=1.75,η2=0.31,大效应)。GPT-5(p=0.566)和Claude Sonnet 4(p=0.653)的比例偏差统计测试不显著。图3A-C中的Bland–Altman图比较了每个大型语言模型(LLM)和人类评分者在医学教育研究质量工具(MERSQI)综合和领域评分之间的一致性。x轴显示LLM和人类评分的平均值,y轴显示评分差异(LLM模型减去人类评分)。实线红色代表平均差异,灰色虚线表示95%的一致性范围,黑色虚线表示趋势线。向下倾斜的趋势线表明LLM在较低的MERSQI平均值时分配了更高的分数,在较高的平均值时分配了较低的分数,这与比例偏差一致。

4 讨论
我们评估了使用LLM通过MERSQI工具评估医学教育研究质量的情况。在评估的三个LLM(GPT-5、Claude Sonnet 4和Gemini 2.5 Pro)中,没有一个模型在所有六个MERSQI领域都优于其他模型。在评估研究设计和数据类型领域时,所有三个LLM与人类的评分一致性最高。LLM在评估抽样、有效性证据和数据分析领域时准确性较低。所有三个LLM与人类的综合评分都显示出显著且相似的一致性。GPT-5倾向于分配略低于人类的分数,而Claude Sonnet 4和Gemini 2.5 Pro分配了更高的综合分数。值得注意的是,Gemini 2.5 Pro的评分根据研究质量的不同而变化,它对低质量研究的评分更为有利,对高质量研究的评分则不太有利,这表明Gemini 2.5 Pro在不确定时可能更为宽容。

4.1 与以往工作的比较
在利用LLM支持研究和学术工作的更广泛背景下,一些研究表明取得了不同程度的成功,有些研究显示了显著的时间节省,而其他研究则强调了需要仔细验证AI驱动的决策[28-30]。与我们的发现一致,RobotReviewer是一种用于分类临床试验中偏差风险的关键评估工具,也与人类评分者显示出中等到公平的一致性(Cohen's κ≤0.60),不同领域之间的变异性较大[31, 32]。同样,早期应用Cochrane Risk of Bias 2.0框架的ChatGPT模型的评估也显示出较弱的结果,总体一致性为公平(Cohen's κ=0.24),领域级别的一致性从公平到轻微不等[33, 34]。

4.2 实际意义
我们的发现表明,当前的LLM无法独立地在所有感兴趣的领域进行准确的质量评估,最适合在人类监督下作为辅助或预筛选工具使用。我们的集体发现还强调了使用领域级别的MERSQI分数而不是单独的综合分数的价值。仅使用AI生成的综合分数可能会掩盖补偿性评分的效果,即一个领域中的过高评分可能会抵消另一个领域中的过低评分。因此,来自特定LLM的综合MERSQI分数可能接近人类的综合分数,尽管在领域级别存在差异。迭代提示修订可能会提高评估质量。这是我们研究团队正在进行的调查领域。例如,修改提示以更明确地解决一致性较低的领域可能会有所帮助。这样的修订可以包括示例和非示例、更详细的说明或评分标准,以及将任务分解为子任务的思维链推理(例如,使用单独的提示来分析有效性)。提示协议可能还需要LLM分析相同的文本两到三次。虽然这种方法会增加总体成本,但如果性能显著提高,这种投资可能是合理的。虽然我们的发现表明,当前的LLM无法完全替代人类对医学教育研究质量的独立评估,但可能存在利用人机协作来最大化研究效率的实际用例。例如,LLM可以作为第二个评审者,特别是在与人类评分者一致性较强的领域(例如,研究设计、数据类型),从而抵消LLM表现不佳的领域所需的额外人力资源。尽管不理想,但这种分工可以减少完成质量评估所需的总体成本和时间[35-37]。对于时间有限的临床教育工作者来说,这种安排的价值尤为明显。在急诊医学中,系统综述通常由小型学术团队执行,这些团队需要平衡临床、教育和学术责任,部分减少重复审查的负担可以显著扩展这些团队能够综合的内容和频率[38]。

4.3 局限性
应承认几个局限性。目前的发现不太可能推广到其他LLM(例如,Perplexity、Llama)或未来的GenAI模型。需要进一步的研究来理解人类和LLM之间差异的机制,并测试微调或针对性校准LLM是否可以提高领域级别的准确性[39, 40]。医学教育研究涵盖了多种报告标准和研究设计,包括定性研究、准实验研究和课程评估等。在此研究中,研究没有按设计类型分类,因此不清楚LLM的评分是否在不同研究设计中有所不同。目前尚不清楚LLM分析多模态输入(例如,图表、图示、表格)的能力是否会在本研究中提高或降低评估准确性。视觉元素通常包含了文本中未完全传达的细节。因此,LLM对视觉元素的错误解释可能会系统性地对依赖视觉数据的研究造成不利影响[41, 42]。尽管该数据集中的几乎所有研究(97.0%;1380/1423)都由两位人类评审者独立评估,但判断或操作定义的变异性可能会影响评分结果。与更大的专家小组或众包团队(例如,>1000名评分者)进行更广泛的验证将为评估人机一致性提供更强的基准[43-47]。同样,使用测试-重测设计探索模型内部变异性也是必要的。

4.4 未来方向
尽管MERSQI工具在健康专业教育中得到了广泛应用,但文献可以从使用其他评估工具(例如,GRADE工具)来研究LLM的结果中受益。此外,鉴于MERSQI工具最适合定量研究,未来的研究可以通过评估LLM使用Popay等人的框架来评估定性研究来扩展这项工作[48]。GenAI执行多模态文档解析的能力不断提高,也值得单独研究其准确性和可靠性。最后,当前研究的设计不允许对诊断准确性(即,敏感性、特异性和ROC曲线下面积)进行关键调查,这些准确性是与基于其生成的MERSQI分数接受或拒绝手稿出版相关的。在未来的研究中调查这些信息可能会对医学教育期刊产生影响,这些期刊正在探索利用人工智能辅助的筛查机制来管理手稿的质量控制。

5 结论

没有一种大型语言模型(GPT-5、Claude Sonnet 4 或 Gemini 2.5 Pro)在所有六个 MERSQI 领域中始终表现出优于其他模型的表现。这些大型语言模型在三到四个领域与人类评分者的评估结果达到了中等或合理的吻合度,这表明在质量评估的大部分方面,人类的监督仍然是必不可少的。这些发现鼓励医学教育研究社区慎重考虑将大型语言模型作为研究助手与维护人类专业知识之间的微妙平衡。

作者贡献

David A. Cook:概念化、研究、撰写初稿、数据整理、方法论设计。
Adam B. Wilson:概念化、撰写初稿、审稿与编辑、研究、方法论设计、监督、正式分析、数据可视化。
Emily Rush:概念化、研究、撰写初稿、审稿与编辑。
Bernard Landry-Wegener:概念化、数据整理、研究、撰写与审稿。
John Swope:软件开发、数据整理、审稿与编辑。
Mohammad Aldalou:概念化、研究、撰写初稿、方法论设计、审稿与编辑、数据整理、资源提供。
William S. Brooks:概念化、研究、撰写初稿、审稿与编辑、项目管理工作。
Corey Bills:概念化、研究、撰写与审稿、数据整理。

致谢

作者无需报告任何特别事项。

资金来源

作者无需报告任何资金来源。

利益冲突

作者声明没有利益冲突。

数据可用性声明

支持本研究结果的数据可向通讯作者提出合理请求后获取。

生物通微信公众号
微信
新浪微博


生物通 版权所有