Nature Medicine：在FDA批准的人工智能医疗设备中，几乎有一半没有接受过真实患者数据的临床验证

时间：2024年8月28日

来源：AAAS

编辑推荐：

北卡罗来纳大学医学院的研究人员发现，超过一半的FDA授权的人工智能医疗设备没有临床验证数据的支持。基于这些发现，研究人员制定了一项新的验证标准，概述了医疗人工智能设备的定义和临床验证的重要性，以提高这些技术在患者护理中的安全性和有效性。

人工智能(AI)在医疗保健领域几乎有无限的应用，从MyChart中的自动起草患者信息到优化器官移植和提高肿瘤切除的准确性。尽管这些工具对医生和患者都有潜在的好处，但由于患者隐私问题、偏见的可能性和设备的准确性，这些工具受到了质疑。

为了应对人工智能医疗设备在医疗保健领域快速发展的使用和批准，北卡罗来纳大学医学院、杜克大学、Ally银行、牛津大学、哥伦比亚大学和迈阿密大学的一个多机构研究团队一直在执行一项任务，即建立公众信任，并评估人工智能和算法技术究竟是如何被批准用于患者护理的。

北卡罗来纳大学医学院医学博士候选人、杜克心脏中心研究学者萨米·乔法尼·艾尔·法西(Sammy Chouffani El Fassi)和北卡罗来纳大学社会医学系教授Gail E. Henderson共同领导了对500多种医疗人工智能设备的临床验证数据的全面分析，结果显示，美国食品和药物管理局(FDA)授权的工具中约有一半缺乏报告的临床验证数据。他们的研究结果发表在《自然医学》杂志上。

该论文的第一作者Chouffani El Fassi说:“尽管人工智能设备制造商吹嘘他们的技术在FDA的授权下是可信的，但获得批准并不意味着这些设备已经使用真实的患者数据进行了适当的临床有效性评估。”“有了这些发现，我们希望通过对这些技术进行临床验证研究并公开这些研究结果，鼓励FDA和行业提高设备授权的可信度。”

自2016年以来，FDA每年平均批准的医疗人工智能设备数量从2个增加到69个，这表明人工智能医疗技术商业化的巨大增长。大多数被批准的人工智能医疗技术被用于帮助医生诊断放射成像中的异常、病理切片分析、给药和预测疾病进展。

人工智能能够通过使用算法组合来学习和执行类似人类的功能。然后，该技术被赋予大量的数据和需要遵循的规则集，这样它就可以“学习”如何轻松地检测模式和关系。在此基础上，设备制造商需要确保该技术不是简单地记住以前用于训练人工智能的数据，而是能够使用从未见过的解决方案准确地产生结果。

人工智能医疗设备快速扩散期间的监管

随着这些设备的快速扩散和应用到FDA, Chouffani El Fassi和Henderson等人对这些授权设备的临床有效性和安全性感到好奇。他们的团队分析了FDA官方数据库中提供的所有提交材料，该数据库名为“人工智能和机器学习(AI/ML)支持的医疗设备”。

“2016年之后推出的许多设备都是全新的，或者它们可能与市场上已有的产品相似。”“使用这个数据库中的数百个设备，我们想确定人工智能医疗设备获得fda授权的真正含义。”

在521项器械授权中，144项被标记为“回顾性验证”，148项被标记为“前瞻性验证”，22项通过随机对照试验进行验证。最值得注意的是，521个fda批准的医疗器械中有226个(约43%)缺乏公开的临床验证数据。一些设备使用的是“幻影图像”或计算机生成的图像，这些图像不是来自真实的患者，从技术上讲，这并不符合临床验证的要求。

此外，研究人员发现，FDA于2023年9月发布的最新指南草案在其对制造商的建议中没有明确区分不同类型的临床验证研究。

临床验证的类型和新标准

在临床验证领域，研究人员和设备制造商有三种不同的方法来验证其技术的准确性:回顾性验证、前瞻性验证和前瞻性验证的子集，即随机对照试验。

回顾性验证包括向人工智能模型提供过去的图像数据，例如患者在COVID-19大流行之前的胸部x光片。然而，前瞻性验证通常会产生更有力的科学证据，因为人工智能设备是根据患者的实时数据进行验证的。根据研究人员的说法，这更现实，因为它允许人工智能解释在训练时不存在的数据变量，例如在COVID大流行期间受病毒影响的患者胸部x光片。

随机对照试验被认为是临床验证的黄金标准。这种前瞻性研究采用随机分配控制来区分实验组和对照组的混杂变量，从而分离出该装置的治疗效果。例如，研究人员可以通过随机分配患者由放射科医生(对照组)和人工智能(实验组)读取他们的CT扫描来评估设备的性能。

由于回顾性研究、前瞻性研究和随机对照试验产生了不同水平的科学证据，参与该研究的研究人员建议FDA和器械制造商在给制造商的建议中应明确区分不同类型的临床验证研究。

Chouffani El Fassi和Henderson等人在《自然医学》(Nature Medicine)杂志上发表了临床验证方法的定义，这些方法可作为医疗人工智能领域的标准。

Chouffani El Fassi说:“我们与监督医疗器械监管的FDA主管分享了我们的发现，我们希望我们的工作将为他们的监管决策提供信息。”“我们也希望我们的出版物能够激励全球的研究人员和大学对医疗人工智能进行临床验证研究，以提高这些技术的安全性和有效性。我们期待着这个项目对大规模患者护理产生积极影响。”

算法可以拯救生命

Chouffani El Fassi目前正在与北卡罗来纳大学心胸外科医生Aurelie Merlo和Benjamin Haithcock以及北卡罗来纳大学健康中心的执行领导团队合作，在他们的电子健康记录系统中实施一种算法，该算法可以自动评估器官捐赠者和转诊过程。

与该领域快速生产人工智能设备相比，医学缺乏基本算法，例如使用电子健康记录中简单的实验室值诊断患者的计算机软件。Chouffani El Fassi说，这是因为实施往往很昂贵，并且需要具有医学和计算机科学专业知识的跨学科团队。

尽管面临挑战，北卡罗来纳大学健康中心的使命是改善器官移植空间。

他说:“寻找潜在的器官捐赠者，评估他们的器官，然后让器官采购组织介入，协调器官移植是一个漫长而复杂的过程。”“如果这个非常基本的计算机算法有效，我们就可以优化器官捐赠过程。多一名捐赠者就意味着多条生命得到拯救。成功的门槛这么低，我们希望能给更多的人第二次生命。”