综述:人工智能医疗诊断设备的临床研究:范围综述

时间:2026年1月25日
来源:EngMedicine

编辑推荐:

这篇综述系统评估了2020-2024年间97篇人工智能医疗诊断设备(AIMDD)二次研究,揭示了其从数据困境(数量、质量、代表性不足)、临床需求脱节的设计缺陷,到验证策略局限(依赖内部验证、缺乏前瞻性及临床验证)及报告标准化缺失等多重挑战。文章强调,推动AIMDD临床转化亟需优化数据集、以临床需求为中心的研究设计、构建综合评价体系及提升模型可解释性(XAI)。

广告
   X   

背景
在医学领域,人工智能(AI)正在彻底改变传统的诊断模式。人工智能医疗诊断设备(AIMDD)是指利用AI算法快速分析患者症状、临床体征、医学影像和实验室结果等多源数据,准确判断疾病类型和分期,并辅助医生进行诊断的医疗设备。最具代表性的AI技术,如机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等,依赖于大数据训练和复杂模型构建。这些进步促进了疾病特征的智能识别与分类,在医学影像解读、病理分析和临床症状评估中发挥着关键作用。
AIMDD在诊断中的作用主要体现在三种形式:平行辅助、二次阅片和预筛查工具。目前,其角色正从平行辅助向二次阅片乃至预筛查工具转变,逐步承担更独立的诊断任务,有效减轻临床医生的工作负担。尽管前景广阔,但超过90%的AI模型尚未进入常规临床实践。阻碍其广泛应用的因素包括:高质量数据稀缺限制了模型训练并削弱了对复杂临床场景的模拟能力;数据隐私问题日益突出;AI算法的“黑箱”特性导致可解释性挑战,降低了临床医生和患者的信任度;算法偏见和责任归属等伦理问题尚未解决;以及AI驱动的临床决策准确性仍需提高。
研究方法
本研究遵循Arksey和O'Malley提出的范围综述方法框架,并依据系统综述和Meta分析优先报告条目:范围综述扩展版(PRISMA-ScR)指南进行报告。研究流程包括:确定研究问题、检索相关研究、筛选研究、提取数据、整理和报告结果。文献检索数据库包括PubMed、Web of Science核心合集和Cochrane系统综述数据库(2020年1月至2024年12月)。检索策略结合了“Artificial Intelligence”、“AI”、“Diagnosis”等英文检索词。考虑到AIMDD领域的快速发展和文献的指数级增长,本研究纳入了2020年至2024年间发表的二次文献,特别是系统综述和Meta分析。
文献筛选由两名经过培训的研究人员独立进行,首先根据预设的纳入和排除标准筛选标题和摘要,然后进行全文筛选。分歧通过讨论或咨询第三位研究人员解决。数据提取内容包括文献的一般信息(如第一作者、发表年份、文献类型、AI方法、纳入原始研究的样本量、疾病领域)以及与研究设计、实施和评价相关的项目(如是否使用质量评估工具、验证方法类型、结局指标、与临床医生表现的比较等)。
结果
文献筛选与基本特征
初检共获得3487篇文献,去除重复后剩余2696篇。经过标题摘要筛选和全文评估,最终纳入97篇文献。筛选流程遵循PRISMA指南。
在外部特征方面,最常用的AI方法是深度学习(35.05%)和机器学习(34.02%)。研究最多的疾病领域是肿瘤学(41.24%),其次是未限定特定疾病(11.34%)、眼科学(9.28%)、胃肠病学(8.25%)、神经病学(8.25%)和心脏病学(6.19%)等。75.26%的系统综述纳入的原始研究数量少于50项。文献类型以系统综述为主(88.66%),近五年相关研究数量显著增长。
在内部特征方面,验证方法存在明显局限。虽然内部验证(36篇)和外部验证(31篇)均受到一定关注,但许多研究未能清晰阐述其验证方法(30篇)。回顾性验证(23篇)更为常见,而前瞻性验证(10篇)和临床验证(5篇)较少。结局指标最常报告的是受试者工作特征曲线下面积(AUC/ROC,65篇)、特异性、敏感性和准确度(54篇)。与临床医生表现的比较中,17篇报告AI表现与人类相当,15篇报告AI优于人类,7篇报告AI与人类结合优于人类单独表现,但多数研究(46篇)仅指出潜在益处而缺乏临床实践益处的证据。质量评估工具最常用的是诊断准确性研究质量评估工具-2(QUADAS-2,48篇)。
讨论
AIMDD临床研究的局限性
  1. 1.
    数据困境:数量、质量与代表性
    AIMDD研究依赖于大量高质量数据,但标注良好的公共数据库仍然有限。训练数据不足会导致过拟合和模型不稳定。多中心研究面临批次效应,数据整合容易产生身份混淆。标注过程存在标注标准单一、不一致、审核宽松等问题,导致标注主观性强、信息丢失甚至噪声干扰。数据不平衡现象普遍,缺乏对特定人群(如性别、种族、经济状况)的代表性,导致数据偏见。多数研究依赖单一数据源和单模态数据集,降低了模型的泛化能力。谱偏倚是当前研究偏倚风险的主要来源之一。
  2. 2.
    忽视临床需求与设计缺陷
    研究设计往往未能充分考虑临床场景的复杂性,如患者异质性、疾病多样性和医疗环境的特异性,导致模型临床适用性有限。许多研究缺乏严格的患者纳入标准,金标准定义不清,且参与医生的资质常未明确说明。81%的原始试验终点与诊断性能相关,但多数研究强调AUC、准确度等指标,而临床效用指标和可接受性数据报告不足。利益相关者分析显示,患者、临床医生和医疗决策者在AIMDD研究中的代表性不足。时间相关因素(如医生培训、工作流程整合、AI监督所需额外时间)增加了总体时间负担。很少有研究评估成本效益或进行卫生技术评估(HTA)。
  3. 3.
    验证策略的局限性
    当前研究严重依赖内部验证,缺乏外部验证。内部验证常存在不合理的交叉验证方法。进行外部验证的研究也主要是回顾性的,存在样本选择偏倚和数据丢失问题。缺乏跨临床环境的纵向或前瞻性设计,导致对模型长期性能和患者预后影响的评估不足。验证策略与临床实践脱节,多数研究为非干预性,未能全面评估模型对医疗决策、临床工作流程以及人机多维互动的影响。
  4. 4.
    报告完整性与标准化缺失
    尽管近年来CONSORT-AI、SPIRIT-AI、DECIDE-AI、TRIPOD+AI等指南逐步完善,但其应用并不广泛。AIMDD临床研究报告的完整性不足,尤其是技术评估细节,严重影响了可重复性和适用性。病例选择、模型算法、数据处理、性能评估计算方法等关键信息常常模糊或缺失。代码和数据可及性问题突出,阻碍了其他研究人员的复制、验证和分析。关键术语命名缺乏统一性。
  5. 5.
    临床转化困难
    AI系统的“黑箱”特性及权责界定不清,降低了医生和患者的信任度。过拟合和对AI系统的过度依赖会导致自动化偏见,造成过度诊断或诊断错误,严重限制泛化能力。临床医生在AI系统设计中的参与不足以及与现有工作流程的整合不佳,进一步阻碍了其应用。数据共享与隐私保护之间的张力也限制了临床转化。
对AIMDD临床研究的建议
  1. 1.
    扩大和优化数据集
    扩大训练数据集规模,开展多中心研究,收集来自不同地区、医院和患者群体的数据。严格标准化采集设备、参数和流程,过滤低质量数据。构建共享平台,引入多源和多模态数据,提高代表性。采用归一化和批次校正算法处理多中心批次效应。应用智能增强等数据增强策略。制定严格的标注规范和审核机制,提高标注效率。
  2. 2.
    以临床医患需求为中心的研究设计
    在研究设计阶段,临床医生应深度参与。根据用户需求、研究问题、样本量和数据类型选择合适的AI算法。结合可用性研究、前瞻性多中心随机对照试验(RCT)和纵向设计等多种研究设计。增加临床环境在研究中的比重,引入代表性病例,让不同经验水平的医生与算法互动。以用户友好的形式部署AI算法,做好用户培训,定期更新数据并纳入反馈以实现迭代改进。深入研究人机多维互动,评估AI对临床结局的影响。
  3. 3.
    紧密结合临床实践的综合评价
    根据AI系统的定位侧重不同的评价指标。对于初步辅助分类,强调高敏感性;用于附加或独立诊断时,需同时考虑敏感性和特异性。采用由预测AI和转诊AI组成的决策转诊方法。从稳定性、兼容性、资源消耗和效率等维度评估临床性能。优化医生端的用户体验,关注对医生工作的影响、侵入性和可接受性等因素。
  4. 4.
    模型可解释性
    基于用户需求发展可解释性方法,在性能和可解释性之间取得平衡。深入开发和应用可解释人工智能(XAI),例如使用可视化技术显示模型的内部结构或决策过程。让临床医生接受AI推理培训并参与模型解释验证。制定可解释性评价指标,定期评估并促进可解释性提升。
  5. 5.
    算法验证、研究评价、报告与指南
    除内部验证外,必须加强外部验证,可采用多中心、跨区域模型,使用具有相似表型/临床表现的真实世界前瞻性数据验证模型的泛化能力。开展更多前瞻性随机对照试验作为金标准。提高技术、统计和概念三个方面的可重复性。AIMDD临床研究报告应遵循AI报告指南,以标准化和完整的方式描述研究方法、模型算法、数据处理、性能评价等信息,增加临床相关指标。提供可用代码或访问接口。建立AI算法开发的注册机制以确保科学完整性和透明度。扩展诊断准确性研究的质量评估工具至AI版本,制定和完善相关指南。
本综述的局限性
本综述仅纳入英文出版物,可能引入语言偏倚,限制研究结果在非英语地区的普适性。此外,排除了灰色文献、会议录和预印本,可能导致遗漏该快速演进领域的新证据。作为范围综述,未对纳入的二次研究进行正式质量评价。
结论
AIMDD有望变革医疗实践,但从研究到临床应用的过程存在诸多问题。可用数据存在数量有限、质量不高、代表性不足;研究设计忽视临床复杂性;验证策略严重依赖内部验证,缺乏外部验证且脱离临床现实;报告缺乏完整性和标准化;临床转化面临AI系统黑箱、过拟合以及数据共享与隐私保护矛盾等挑战。针对这些问题,本研究提出了优化数据集、以临床需求为导向的研究设计、构建综合评价体系等建议,以期推动AIMDD的临床转化。

生物通微信公众号
微信
新浪微博


生物通 版权所有