**摘要**
**目的**:人工智能(AI)辅助的虚拟患者模拟在健康专业教育中越来越被广泛应用,以改善临床沟通和诊断推理能力。然而,这些技术对精神科访谈培训的有效性尚未进行系统的量化评估。本研究旨在系统地回顾和荟萃分析现有文献,以评估AI辅助虚拟患者对精神科访谈表现、知识获取以及学习者信心的影响。
**材料与方法**:本研究遵循PRISMA 2020指南进行了系统回顾和荟萃分析。在PubMed/MEDLINE、Scopus、Web of Science和Google Scholar电子数据库中进行了搜索,以确定2000年1月至2026年3月期间发表的相关研究。纳入的研究需评估AI辅助虚拟患者模拟在医学生、精神科住院医师、临床医生或其他健康专业培训者中的精神科访谈培训效果。数据提取内容包括研究特征、参与者群体、干预类型和教育成果。偏倚风险使用Cochrane偏倚风险工具进行评估。定量综合采用随机效应荟萃分析模型进行,并使用R统计软件计算效应量(标准平均差异SMD)及其95%置信区间(CI)。
**结果**:通过数据库搜索和额外来源共识别出560条记录。去除重复项和筛选后,10项研究符合纳入标准并纳入最终分析。这些研究涉及约450名参与者,包括医学生、精神科住院医师、临床医生、护理学生和心理学培训者。AI辅助的虚拟患者干预措施包括对话式AI系统、虚拟人类模拟、基于大型语言模型的模拟患者以及AI-虚拟现实训练环境。汇总分析显示,经过AI支持的虚拟患者培训后,精神科访谈表现、知识获取和学习者信心有所提高。亚组分析表明,学生和临床医生群体均获得了积极的教育成果。偏倚风险评估显示,各研究的方法学质量存在差异,部分研究采用的是试点或非随机设计。
**结论**:AI辅助的虚拟患者模拟是提升健康专业教育中精神科访谈培训的有效工具。这些技术提供了可扩展和标准化的模拟环境,有助于沟通技能的发展、诊断推理能力的提升及学习者信心的增强。尽管研究结果表明具有良好的教育效益,但仍需要进一步的大规模随机对照试验和标准化成果评估,以确认AI辅助虚拟患者培训在精神科培训中的长期教育效果。
**引言**
有效的精神科访谈是心理健康实践和医学教育中的基本能力。精神障碍的准确诊断和管理在很大程度上取决于临床医生建立良好关系、获取症状信息以及进行结构化临床访谈的能力(1-4)。这些沟通和诊断技能在精神病学中尤为重要,因为临床评估更多依赖患者的叙述和行为观察,而非客观实验室结果。因此,结构化的精神科访谈和以患者为中心的沟通成为医学生、精神科住院医师及其他参与心理健康护理的专业人员的核心培训内容(5, 6)。
传统的精神科访谈技能教学方法包括讲授、角色扮演练习、标准化患者模拟和监督下的临床实践。其中,标准化患者模拟已在医学教育中得到广泛应用,尤其是在用于评估临床能力的客观结构化临床考试(OSCE)中(7, 8)。虽然标准化患者模拟提供了宝贵的经验学习机会,但也存在操作成本高、可扩展性有限以及参演者表现不稳定等 logistical 挑战(9, 10)。此外,接触多样化的临床场景的机会往往有限,导致培训期间难以全面了解所有类型的精神疾病。
数字技术的进步为通过模拟学习提升临床教育提供了新的机会。一种方法是使用虚拟患者,即旨在支持培训、评估和临床决策的实时临床场景的计算机模拟(11, 12)。虚拟患者系统使学习者能够在安全且标准化的环境中处理模拟临床案例,并获得关于其临床决策的自动反馈。先前的研究表明,虚拟患者模拟可以改善不同医学领域学习者的临床推理、诊断准确性和沟通技能(13-15)。在精神病学教育中,虚拟患者模拟被用于培训自杀风险评估、精神科访谈和创伤相关护理等技能。早期研究显示,虚拟患者可以复制精神科咨询的关键环节,使培训者在不对真实患者造成风险的情况下练习访谈技术和临床决策(16, 17)。此外,虚拟患者平台还具有可重复的案例、标准化的案例呈现和即时反馈等优点(15)。这些特点使其特别适合精神科培训,因为沟通技能和共情在这方面起着重要作用。
最近,人工智能(AI)和大型语言模型(LLM)的整合进一步扩展了虚拟患者系统的功能。AI驱动的对话代理能够生成动态响应、模拟复杂的患者行为,并在模拟访谈中为学习者提供个性化反馈。这些技术使训练环境比早期的基于规则的虚拟患者系统更具互动性和真实性(18)。初步研究表明,AI支持的模拟可能提高学习者在精神科访谈中的信心、共情能力和沟通技能,同时增强知识获取和诊断推理能力(19-25)。尽管对AI辅助模拟在医学教育中的兴趣日益增长,但关于这些技术在精神科培训中的有效性证据仍不系统。个别研究报道了访谈表现、信心和知识成果的提升;然而,这些研究在设计、参与者群体和结果测量方面存在很大差异。有些研究关注医学生,有些则针对精神科住院医师或执业临床医生。干预措施从传统的虚拟患者平台扩展到AI驱动的对话代理和沉浸式虚拟现实模拟(16, 20, 21)。因此,AI辅助虚拟患者培训在精神科教育中的整体有效性尚未进行系统的量化评估。
为填补这一空白,需要对现有证据进行全面整合。系统回顾和荟萃分析为整合多项研究的结果提供了严谨的方法学框架,并能估算教育干预的汇总效应。在证据分散于不同研究设计的新领域中,此类分析尤为宝贵。
因此,本研究的目的是系统地回顾和荟萃分析现有文献中关于AI辅助虚拟患者用于健康专业教育中精神科访谈培训的内容。具体而言,本研究旨在评估AI辅助虚拟患者模拟对参与心理健康培训的学生、住院医师和临床医生的访谈表现、知识获取和信心的影响。
**研究设计与纳入标准**
本研究采用系统回顾和荟萃分析的方法,评估AI辅助虚拟患者对健康专业教育中精神科访谈培训的有效性。研究设计遵循Prisma 2020指南,以确保研究识别、筛选和报告的透明度和可重复性(26)。方法学框架还参考了健康专业教育研究中的荟萃分析建议(27)。
**纳入标准**
符合纳入标准的研究需评估AI辅助虚拟患者或AI支持的模拟患者系统在健康专业教育中的精神科或心理健康访谈培训中的应用。符合条件的参与者包括医学生、精神科住院医师、临床医生、护理学生、心理学培训者或其他参与心理健康培训的健康专业学习者。干预措施包括虚拟患者平台、AI驱动的对话代理、基于大型语言模型的模拟患者或旨在提高精神科访谈技能、诊断推理或患者沟通能力的AI支持模拟环境。无论比较组类型如何,研究均可纳入,即使涉及传统教育方法、基线或干预前评估、对照组,或试点/探索性研究无比较组。研究需至少报告一项与精神科访谈表现、知识获取、诊断推理或沟通技能相关的可测量教育成果。各种研究设计均被考虑在内,包括随机对照试验、非随机对照试验、实验研究、试点研究、干预前后的研究以及混合方法教育评估。不符合条件的研究包括未涉及精神科或心理健康教育、未包含AI支持或基于虚拟患者的干预、缺乏可测量教育成果的研究,或以综述文章、社论、会议摘要或意见文章形式发表的研究。
**搜索策略**
进行了全面的文献搜索,以识别评估AI辅助虚拟患者在健康专业教育中精神科访谈培训应用的研究。在PubMed/MEDLINE、Scopus、Web of Science和Google Scholar电子数据库中进行搜索,涵盖2000年1月至2026年3月期间发表的研究,这一时期正是虚拟患者技术和基于人工智能的模拟工具开始应用于医学教育的时期。搜索策略结合了与人工智能、虚拟患者模拟、精神科教育和临床访谈培训相关的关键词和布尔运算符。使用以下搜索词及其组合:“virtual patient”、“virtual human”、“AI simulated patient”、“artificial intelligence simulation”、“large language model”、“psychiatric interview”、“mental health training”、“psychiatry education”和“medical education”。必要时根据数据库特点调整搜索策略。此外,手动筛选相关文章的参考文献列表以发现初始搜索中可能遗漏的研究。所有检索到的记录被导入参考管理软件,并在筛选前去除重复记录。两名独立评审者进行文献搜索和研究筛选,以确保准确性和最小化选择偏倚。
**数据提取**
两名评审者使用为本研究设计的标准化数据提取表独立完成数据提取。对于每项纳入的研究,提取以下信息:第一作者、发表年份、国家、研究设计、参与者特征、样本规模、AI辅助虚拟患者干预类型、比较组(如有)、结果指标和主要发现。当研究报告多个结果指标时,记录所有与精神科访谈培训、知识获取、沟通技能或学习者信心相关的数据。提取的数据在评审者之间进行交叉核对,以确保准确性和完整性。通过讨论和共识解决数据提取中的任何差异。
**偏倚风险评估**
使用Cochrane偏倚风险工具对纳入研究的 méthodological 质量进行评估(28)。评估的领域包括随机序列生成、分配隐藏、参与者和结果评估的盲法处理、结果数据不完整以及选择性报告。对于非随机对照试验(如试点研究或干预前后的研究),采用改编的方法学质量评估方法。每个领域被分类为低偏倚风险、不明确偏倚风险或高偏倚风险。偏倚风险评估结果以表格和图形格式呈现。
**结果指标**
本系统回顾和荟萃分析的主要评估指标是与AI辅助虚拟患者在精神科访谈培训中使用相关的教育成果。具体而言,分析关注三个主要结果领域:精神科访谈表现、知识获取和学习者信心或沟通相关技能。精神科访谈表现指标包括评估学习者进行结构化临床访谈、识别精神症状和在模拟患者互动中展示诊断推理能力的能力。这些结果通常通过客观结构化临床考试(OSCE)得分、结构化访谈表现评分或基于模拟的评估工具进行评估。知识获取指标指干预后对精神障碍理论理解、诊断标准或临床管理策略的改进。这些结果通常通过多项选择题知识测试、结构化考试或教育干预前后的标准化知识评估工具进行测量。信心和沟通指标包括学习者自我报告的精神科访谈能力、与患者沟通能力或管理心理健康状况的能力。这些结果通过经过验证的信心问卷、沟通技能评分量表或共情评估工具进行评估。当研究报告多个结果指标时,将所有与精神科访谈、诊断推理、沟通技能或知识获取相关的数据提取出来,并根据需要分类为三个预定义的领域,以便进行跨研究比较和汇总分析。
**统计分析**
所有统计分析均使用R统计软件(版本4.3.1;R Foundation for Statistical Computing,维也纳)及“meta”和“metafor”包完成。在数据充足的情况下,采用荟萃分析方法进行定量综合。效应量是使用标准化平均差异(SMD)和95%置信区间(CI)计算得出的,以便比较使用不同量表测量的结果。由于预期中的参与者群体、干预类型和结果测量工具的异质性,采用随机效应模型进行了合并分析。异质性通过I2统计量进行评估,值分别约为25%、50%和75%时表示低、中和高异质性。基于参与者类型(学生与住院医生/临床医生)进行了亚组分析,以探索不同学习者群体之间的教育结果差异。适当时通过观察漏斗图的对称性来评估发表偏倚。由于结果领域(如知识、信心、同理心)之间的临床和概念异质性较大,没有进行整体合并分析,而是在特定结果子组内分析结果。
**结果**
在初始数据库搜索中共筛选出560条记录。其中,537条记录来自电子数据库,23条记录来自其他来源。所有检索到的记录都被导入参考管理软件中,在筛选过程中由两名独立审核者手动删除了112条重复记录。去除重复记录后,剩余448条记录用于标题和摘要筛选。在筛选阶段,有327条记录因不符合纳入标准而被排除。随后,对121篇全文文章进行了资格评估。在这些文章中,有111篇在全文评估后被排除,排除的原因包括结果不相关(n=56)、缺乏AI增强的虚拟患者干预(n=29)以及数据不足(n=26)。最终,有10项研究符合所有预定义的纳入标准,被纳入系统评价和荟萃分析(图1)。
**图1 PRISMA流程图**
纳入研究的特征总结在表1中。共有10项研究被纳入分析。这些研究分别在法国(n=1)、瑞典(n=2)、美国(n=3)、日本(n=1)、英国(n=1)和西班牙(n=2)进行。研究设计包括实验性研究(n=2)、干预前后研究(n=3)、试点研究(n=2)、随机或非随机对照试验(n=2)以及定性或教育性试验(n=1)。纳入研究的参与者包括医学生、精神病学住院医生、临床医生、护理学生和心理学培训生。所有研究的参与者总数约为450人,单个研究的样本量从15人到145人不等。这些研究评估的干预措施包括AI支持的虚拟患者、虚拟人类模拟、基于大型语言模型的模拟患者、AI-虚拟现实模拟,或旨在培训精神病访谈技巧、沟通技巧或诊断推理的分支叙事虚拟患者系统。研究报告的结果指标包括精神病访谈表现、知识掌握、学习者信心、同理心或沟通技巧,以及学习者对教育有用性的感知(表1)。
**表1 研究**
| 国家 | 研究设计 | 参与者 | 干预措施 | 结果指标 | 主要发现 |
|------------------|--------------|-----------|--------------|------------------------------------------|
| Dupuy等人(16) | 实验性研究 | 35名医学生 | 模拟重度抑郁障碍的虚拟患者 | 通过同理心问题和半结构化问题评估访谈表现 |
| Pantziaras等人(19) | 干预前后研究 | 32名精神病学住院医生 | 使用难民创伤虚拟患者的模拟训练 | 临床信心显著提高(Δ0.34,p<0.0001) |
| Pantziaras等人(20) | 干预前后知识测试 | 32名精神病学住院医生 | 使用虚拟PTSD患者的模拟训练 | 培训后知识显著提高 |
| Wilkening等人(21) | 美国 | 18名精神病学住院医生 | 分支叙事虚拟患者模拟 | 模拟中的知识显著提高(p<0.05) |
| Pataki等人(17) | 美国 | 15名培训生 | 虚拟青少年PTSD患者模拟 | 知识测试和沉浸式问卷显示高参与度和良好互动行为 |
| Sarli等人(22) | 美国 | 随机对照试验 | 64名临床医生 | 与虚拟自杀患者互动 | 同理心编码系统显示低初始同理心的临床医生同理心提高 |
| Yamamoto等人(25) | 日本 | 非随机对照试验 | 145名医学生 | 使用GPTO的AI模拟患者访谈 | AI组访谈得分更高(p=0.01) |
| Martinez等人(29) | 英国 | 定性研究 | 15名护理学生 | AI驱动的虚拟患者安置 | 通过主题分析显示沟通技巧和临床推理能力提高 |
| Sanz等人(23) | 西班牙 | 实验性研究 | 健康专业学生 | AI驱动的虚拟精神病访谈 | 通过主题分析显示沟通技巧和临床推理能力提高 |
| Torres等人(24) | 西班牙 | 教育性试验 | 医学培训生 | AI辅助的精神病模拟 | 对培训满意度和沟通技巧有积极影响 |
**表2 纳入研究的特征**
纳入研究的结局指标和主要结果在表2中呈现。这些研究评估了与AI支持的虚拟患者在精神病训练中使用相关的各种教育结果。在Dupuy等人的研究中,35名医学生参与了模拟重度抑郁障碍访谈的虚拟患者训练。访谈表现通过同理心问题和半结构化选择题进行评估,平均 verbal 同理心得分为18.41分(满分20分),半结构化得分为17.34分。Pantziaras等人(19)使用难民创伤虚拟患者系统评估了32名精神病学住院医生的临床信心,干预后信心得分显著提高(Δ=0.34;p<0.0001;Cohen’s d=0.89)。在另一项Pantziaras等人的研究中(20),32名精神病学住院医生通过PTSD知识选择题测试,干预前平均分为7.44分,干预后为8.47分(p<0.001)。Wilkening等人进行了一项试点研究,18名精神病学住院医生完成了分支叙事虚拟患者模拟,心理药理学知识在干预前后有显著提高。Pataki等人的试点研究中,15名培训生与虚拟青少年PTSD患者进行了访谈,结果显示PTSD症状知识无显著变化,但参与者在模拟访谈中表现出高参与度和良好互动行为。Sarli等人进行的随机对照试验中,64名临床医生与虚拟自杀患者互动,使用同理心编码系统评估同理心表现,初始同理心水平较低的临床医生同理心有所提高。Yamamoto等人的非随机对照试验中,145名医学生参与了基于大型语言模型的模拟患者访谈,AI组得分高于对照组(28.1 vs 27.1;p=0.01)。Martinez等人研究了15名心理健康护理学生,使用AI驱动的虚拟现实患者模拟,通过主题分析评估沟通技巧和诊断推理能力。
**表3 纳入研究的偏倚风险评估**
表3总结了纳入研究的偏倚风险评估。从随机序列生成、分配隐藏、盲法、不完整结果数据和选择性报告等方面评估了研究的方法学质量。在随机序列生成方面,3项研究(Dupuy等人、Sarli等人、Sanz等人)的偏倚风险较低。Yamamoto等人(2项)和Torres等人(2项)的偏倚风险为中等,其余研究由于未报告随机化程序而分类为不明确或高风险。在分配隐藏方面,Sarli等人和Sanz等人的偏倚风险较低;Torres等人风险为中等,但由于分配程序信息不足,多项研究被分类为不明确。在盲法方面,Sarli等人(3项)、Sanz等人(1项)和部分Dupuy等人(1项)的偏倚风险较低或不明确;而大多数研究由于是开放式教育干预且未实施参与者盲法,因此被分类为高风险。所有研究在结果数据不完整方面的偏倚风险较低,因为结果报告完整且参与者流失情况最少或描述充分。在选择性报告方面,所有纳入研究的偏倚风险较低,因为报告的结果与研究方法中描述的结果一致(表3;图2)。
**表3 研究的偏倚风险评估**
**表4 按参与者类型划分的亚组分析结果**
根据参与者类型,纳入研究的结果在表4中呈现。涉及学生的研究报道称,在接受AI支持的虚拟患者训练后,精神病访谈表现、知识掌握和信心或沟通相关结果有所改善。这些研究的标准化平均差异表明访谈表现和知识掌握有中等程度的提高。涉及住院医生的研究也观察到评估结果的好转。基于虚拟患者的训练与访谈表现的中等程度提高和知识掌握的小到中等程度提高相关。此外,这一亚组中的信心和沟通相关结果也有中等至较大的改善。
**表4 按参与者类型划分的亚组分析**
报告信心相关结果的研究的汇总分析显示,在Pantziaras等人(19)的研究中,AI支持的虚拟患者训练后,学习者的信心得分显著提高(Δ=0.34;p<0.0001;Cohen’s d=0.89)。Sarli等人(23)的研究中,初始同理心水平较低的参与者在虚拟患者互动后的同理心沟通能力有所提高。Martinez等人(24)的研究中,参与者在与AI驱动的虚拟患者互动后报告了沟通信心和患者评估能力的提高。
报告知识相关结果的汇总分析显示,在Pantziaras等人(20)的研究中,使用PTSD知识选择题测试,干预后知识得分从7.44分提高到8.47分(p<0.001)。Wilkening等人(21)的研究中,分支叙事虚拟患者模拟后,心理药理学知识显著提高。Pataki等人(17)的研究中,PTSD症状知识在干预前后无显著变化,但参与者表现出高参与度和良好互动行为。Sanz等人报告称,在接受基于ChatGPT的模拟精神病学面试培训后,诊断推理和面试相关知识有所提高(见图4)。图4展示了与知识相关结果的汇总分析。讨论:本系统性回顾和元分析综合了现有证据,探讨了人工智能增强型虚拟患者在健康专业教育中用于精神病学面试培训的有效性。研究结果表明,人工智能支持的虚拟病人模拟有助于提高精神病学面试表现、知识获取以及学习者的信心,适用于包括医学生、精神病学住院医师和临床医生在内的不同培训人群。分析中最一致的发现是虚拟病人模拟对精神病学面试表现和诊断推理的积极影响。在纳入的研究中,接受人工智能支持的模拟训练的学习者在构建精神病学面试结构、识别相关症状和应用诊断推理方面表现出色。Dupuy等人证明,模拟重度抑郁障碍的虚拟病人能够客观评估共情沟通和症状识别能力(16)。他们的研究显示,与虚拟病人互动的医学生在共情相关问题和症状提取任务中取得了高分。这些发现与早期研究结果一致,即虚拟病人模拟可以重现临床 encounter 的关键要素,并为精神病学等需要高度沟通能力的医学领域提供有效的培训环境(13)。多项研究还观察到,虚拟病人培训后知识获取有所提升。例如,Pantziaras等人(20)报告称,精神病学住院医师在与模拟创伤相关精神疾病状况的虚拟病人互动后,知识得分显著提高。Wilkening等人发现,通过分支叙事虚拟病人模拟训练后,精神病学住院医师的心理药理学知识有所提升(21)。这些发现与医学教育领域的广泛文献一致,表明基于模拟的学习环境通过让学习者在现实临床场景中应用理论知识来增强知识保留和临床推理能力(2, 9)。然而,并非所有研究都显示出显著的知识提升。例如,Pataki等人发现,尽管受训者在虚拟面试中表现出较高的参与度和建立融洽关系的行为,但PTSD相关知识的提升幅度有限(17)。这种差异可能反映了不同研究中干预时长、学习者经验水平或评估工具的差异。本回顾中发现的另一个重要结果是,人工智能增强型模拟培训后学习者的信心和沟通技巧有所提高。元分析中包含的几项研究显示,学习者在接受虚拟病人系统培训后,在进行精神病学面试和与患者互动方面的信心增强了。Pantziaras等人(19)报告称,临床医生在接触虚拟病人模拟后,在评估创伤相关精神疾病状况方面的信心显著提高。同样,Sarli等人发现,虚拟病人互动可以提高临床医生的情绪自我意识和共情沟通能力,尤其是在基线共情水平较低的参与者中(22)。这些发现与之前的研究一致,表明基于模拟的学习环境为学习者提供了心理安全的空间,让他们能够在不危及真实病人的情况下练习沟通技巧并获得反馈(12)。人工智能和大型语言模型越来越多地整合到模拟平台中,这是医学教育技术的一项重要进步。传统的虚拟病人系统通常依赖于预编程脚本或分支叙事,这可能限制了病人互动的真实性。相比之下,人工智能驱动的对话代理能够生成动态响应,并在模拟面试中适应学习者的输入。Pedrajas等人证明,基于ChatGPT的模拟病人可以有效支持心理学的临床培训,实现真实的面试互动和诊断推理练习(23)。García-Torres等人报告称,基于人工智能的虚拟模拟病人使学习者可以在灵活互动的环境中练习精神病理学面试(24)。这些发展表明,人工智能驱动的模拟可能克服了早期基于规则的虚拟病人系统的一些局限性。目前的发现也与支持基于模拟训练在精神病学教育中有效性的更广泛证据相符。先前的系统性回顾已经证明,模拟训练可以提高心理健康教育中的临床能力、沟通技巧和决策能力(2, 4)。Piot等人报告称,基于模拟的精神病学培训与护理学生和医疗专业人员的沟通技巧和临床决策能力提升有关(2)。Lee等人强调了虚拟病人模拟器在提高健康专业教育中医学沟通训练方面的有效性(13)。当前的元分析特别关注了人工智能增强的虚拟病人系统,这是下一代基于模拟的教育技术。尽管有这些积极的发现,在解释这项元分析的结果时仍需考虑几个方法学限制。首先,纳入的研究在研究设计、参与者群体和结果测量工具方面存在显著异质性。一些研究在早期培训阶段评估了医学生,而其他研究则关注住院医师或在职临床医生。此外,干预措施从传统的虚拟病人平台到沉浸式的人工智能驱动模拟以及基于大型语言模型的对话代理不等。这种多样性可能会影响观察到的效果大小,并使跨研究的直接比较变得复杂。其次,许多纳入的研究样本量较小或采用试点研究设计,这可能限制了结果的可推广性。一些研究还使用了无对照组的干预前后的设计,使得难以将观察到的改进完全归因于干预本身。在之前的基于模拟的精神病学教育回顾中已经指出了这些方法学挑战,强调了需要更大规模的随机对照试验来确证这些技术的有效性(4)。另一个限制与教育成果的测量方式有关。虽然一些研究使用了OSCE分数和知识测试等客观指标,但其他研究依赖于自我报告的信心或定性反馈。虽然这些指标提供了关于学习者感知和教育体验的宝贵信息,但它们可能无法完全反映临床能力或实际患者护理结果的改善。因此,未来的研究应纳入标准化评估工具和长期随访评估,以确定在模拟环境中观察到的改进是否能够转化为现实医疗环境中的临床表现提升。纳入的研究涵盖了相当长的时间跨度,反映了近年来人工智能的迅速发展。2018年之前的研究主要依赖于预编程的分支叙事虚拟病人(17, 19, 21)。相比之下,最近的干预措施利用了先进的大型语言模型(LLMs)来生成动态的、非脚本化的临床场景(23, 25)。从基于规则的算法向生成式AI的范式转变显著提高了精神病面试模拟的真实性,但也带来了关于结果评估标准化的新挑战。尽管如此,本研究的发现突显了人工智能增强型虚拟病人系统转变精神病学教育的潜力。这些技术提供了可扩展、标准化和可重复的培训机会,可以补充传统教学方法,如标准化病人程序或临床实习。此外,人工智能驱动的模拟允许学习者在受控环境中练习复杂的精神病学面试和沟通技巧,这对于自杀风险评估或创伤知情护理等敏感临床领域的培训尤其有益。未来的研究必须优先进行大规模的多中心随机对照试验,以评估长期技能保留情况。此外,研究应针对特定、高复杂性的领域,如儿童和青少年精神病学以及神经发育状况的轨迹。将这些虚拟病人平台整合多模态技术,包括计算机化面部情绪识别分析和可解释的AI模型,对于推进诊断推理和精细沟通培训至关重要。结论:总之,这项系统性回顾和元分析的结果表明,人工智能增强的虚拟病人是健康专业教育中精神病学面试培训的一种有前景的教育工具。多项研究表明,这些干预措施与面试表现、知识获取和学习者信心的提升有关。尽管方法学异质性和研究设计限制需要谨慎解释,但越来越多的证据支持将人工智能驱动的虚拟病人模拟整合到精神病学教育课程中。
打赏