临床人工智能(Artificial Intelligence, AI)与机器学习(Machine Learning, ML)虽已取得快速进展,但能在常规临床护理中持续使用的系统却寥寥无几。这一创新与实践之间的鸿沟并非源于模型性能的不足,而是由于AI在真实临床环境中部署时,在验证、治理与信任方面存在的持续性失败。回顾性表现良好的模型在应用于前瞻性场景时常出现性能衰退,与本地工作流程失配,最终被弃用,而当前应对措施主要依赖以人员和流程为核心的机制,如专家审查、定制化验证以及自由裁量式治理。这些方式缓慢、脆弱且难以规模化,使信任成为推广的首要瓶颈。研究人员倡导向可信设计(trust by design)转变,将信任视为系统属性而非个人或委员会赋予的判断。研究人员阐述了可信系统——包括隐私增强计算(Privacy-Enhancing Compute)、可信执行环境(Trusted Execution Environments, TEEs)以及可信研究环境(Trusted Research Environments, TREs)——如何将数据使用、可审计性与可重复性的可执行保证嵌入系统之中。通过基础设施实现信任的操作化,这些系统支持可规模化的本地验证、减少重复劳动,并促进临床AI/ML更加公平且持久的部署。
临床人工智能(Artificial Intelligence, AI)与机器学习(Machine Learning, ML)技术已从研究领域快速扩展至医疗机构的日常应用场景,医院正将AI部署于临床决策支持与运营工作流程中。基于多模态临床数据(即电子健康记录(Electronic Health Records, EHR)、医学影像及生理信号)训练的深度学习模型已达到临床相关性能水平,具备跨文本与图像模态处理能力的生成式AI模型亦已涌现。计算能力的扩充与隐私增强技术(Privacy-Enhancing Technologies, PETs)的进步使得在敏感健康数据上开发与部署强大模型成为现实。与此同时,众多医疗机构已试点领域特异性AI/ML工具,并建立正式治理结构以支持部署,战略与风险投资亦对该领域保持持续投入,学术界对转化与实施框架的关注度亦在提升。
尽管取得上述进展,临床AI/ML系统中实现持续常规应用者仍属少数,创新与实践之间存在持久鸿沟。此转化缺口被称为"实施鸿沟"或"AI鸿沟",即研究成果未能转化为患者与临床医生的实际获益。研究显示,模型部署于临床环境后常遭遇性能退化、与临床工作流程失配或被最终弃用等问题。该鸿沟还可能加剧既有健康不平等,因临床AI/ML的效益集中于资源丰富机构,而安全网医院与资源受限机构则面临治理、隐私与信任障碍。这些障碍具有社会技术属性,标志着技术性能已非首要瓶颈,模型的验证与治理方式才是成功实施的限速因素。
这些验证与治理挑战反映了更深层次的问题:临床AI/ML的信任及其在真实临床环境中的操作化。当前方法过度依赖以人员和流程为核心的机制,即专家审查、定制化验证工作流及自由裁量式治理决策,这些方式缓慢、脆弱且根本无法规模化。研究人员提出"可信设计"作为替代范式,将信任视为系统属性,通过技术与组织保证加以强化。本文首先考察高性临床AI/ML模型为何难以转化为持续临床使用,随后从概念上重构信任,区分自由裁量式信任与系统嵌入型信任,并阐明可信系统如何为本地验证提供使能基础设施,最后提出支持这些方法的实践框架。
**临床AI/ML的创新-实践鸿沟**
尽管临床AI/ML快速发展且机构投资增加,高性模型的持续临床转化仍属例外。此创新-实践鸿沟反映了一种反复出现的转化失败:将在受控开发环境中优化的模型部署于真实且常属高风险的临床环境。回顾性准确率与临床采纳之间的错配显著且已被充分记录。临床AI/ML模型虽常实现高回顾性准确率(放射学92-98%,再入院预测AUC(Area Under the Curve)为0.76-0.82),但仅15-25%的科室成功将AI工具整合入常规实践,约60%的项目未能超越试点测试。原因在于模型通常作为通用人工制品针对基准指标评估,却须作为特定场所工具运行,其实用性取决于本地数据分布、工作流程及运营约束。这导致机构内"模型墓地"的积累——系统展示强劲基准性能但临床或经济影响证据有限。
**为何强回顾性性能难以在前瞻性场景中保持?**
多数临床AI/ML系统基于回顾性静态数据集训练与验证。虽便于利用标准化公共或精选数据集(如MIMIC、UK Biobank子集、影像存档)进行模型开发,但此方法抽离了活临床环境的运营复杂性,其中数据可用性、文档实践、患者人群及工作流程均呈动态。因此,回顾性表现良好的模型在前瞻性部署时常出现性能退化。一项ICU(Intensive Care Unit, 重症监护室)预测模型的荟萃分析发现,外部评估中平均AUROC(Area Under the Receiver Operating Characteristic Curve, 受试者工作特征曲线下面积)降低-0.037,近半数研究降幅超过0.05。回顾性基准高估真实世界可靠性,性能退化反映了部署后进行持续性、情境特异性评估与监测的需求。
**临床AI/ML部署中的可预测失败模式**
模型在实践中的失败方式具有可预测性,且超出性能退化范畴。常见驱动因素包括数据集漂移(dataset shift),即患者人群、工作流程或医疗模式的变化可能损害已部署模型的性能与可靠性。真实部署中,此类漂移可使先前稳定的系统无法使用,如某广泛部署的脓毒症警报在COVID-19大流行期间因患者人口统计学变化导致的广泛虚假警报而被停用。更严重情况下,性能可骤然崩溃,如某儿科CLABSI(Central Line-Associated Bloodstream Infection, 中心导管相关血流感染)预测模型的AUROC从回顾性验证的0.97降至前瞻性使用时的0.60以下。最常见的是,相同模型常在不同机构间表现出显著性能差异,因本地情境差异(患者人口统计学、数据生成及临床工作流程)而在某些场所表现良好、在另一些场所表现不佳。这些失败反映了算法与其部署机构环境之间的系统性互动。
**机构情境塑造模型性能**
EHR(Electronic Health Records)供应商、数据模式、特征定义、文档实践及数据溯源(data provenance)的差异是创新-实践鸿沟的核心驱动因素。因此,在模型界面看似相同的变量(如实验室值、诊断或临床事件)在不同机构间的记录、编码或解读方式可能不同,导致相同名义输入在实践中携带不同含义。互操作性局限进一步加剧这些挑战,即使模型为外部开发,仍需大量本地数据工程工作。超越数据层面,组织情境亦决定模型输出能否及是否会驱动结果。工作流程、人员配置模式、升级路径及决策权限在不同临床设置中各异,塑造着预测如何转化为临床干预。有效验证因此须同时评估预测准确性与社会技术适配性,即模型是否与本地照护系统及运营实践相契合。即便资源充足机构亦 struggle 于此整合,表明机构准备度与工作流程对齐仍是采纳的主导约束。
**外部验证与本地情境**
当前实践中的外部验证必要但不充分。实际上其仍属少见(仅14.7%的ICU预测模型接受外部验证),且进行时通常依赖为可及性而选取的有限数据集,造成误导性的泛化感。此外,外部验证通常作为静态、人群层面评估进行,通过无法保证本地安全性或临床效用的汇总指标总结平均性能。机构与患者亚组间的显著性能变异凸显此局限。这造成结构性张力:临床AI/ML模型基于回顾性基准开发评估,却须在不同本地条件下准确可靠运行。
**信任、采纳与创新-实践鸿沟**
这些转化失败的累积效应是信任侵蚀。临床医生信心因不可预测的模型行为而下降,高知名度失败案例放大了超越个别用例的怀疑。鉴于对本地性能的不确定性,机构以保守治理和自由裁量审查回应,进一步限制转化及其跟进快速创新的能力。这表现为更慢审批、监督扩展及增加/定制化验证要求,强化了风险规避进一步约束采纳的反馈循环。结果是创新-实践鸿沟 widening,反映的并非缺乏有能力的模型,而是未能于多样化临床环境中操作化信任。理解此失败为何持续,需要重新审视当前约束临床AI/ML部署的人员、流程与治理障碍。
**临床AI/ML采纳的障碍**
临床AI/ML的信任、验证与问责通过稀缺人员、缓慢流程及不一致治理而非可重复、可执行的系统来实现。
**以人员为中心的障碍**
临床AI/ML采纳仍依赖有限的跨学科专业知识,涵盖临床实践、数据工程、隐私及运营部署,许多医疗系统缺乏此类能力。技能缺口迫使依赖少数专家或供应商,而一线利益相关者常被期望在缺乏对模型局限性充分理解的情况下依据模型输出行动,增加感知风险并减缓采纳。验证同样以人员为媒介,评估与监测常为定制化、文档不一致且难以跨场所再现,导致重复的本地劳动和有限的转移性。数据集组成的透明度薄弱及人群多样性不足,进一步增加本地专家评估偏差与适用性的负担。
**以流程为中心的障碍**
即便存在专业知识,采纳仍受继承自技术债务的工作流程约束,包括为前AI/ML范式设计的研究与采购流程。数据访问、提取及策展仍昂贵耗时,机构需反复投资清洗和结构化EHR数据后方可开始本地验证。这些技术瓶颈因碎片化的审批路径而加剧,包括安全审查、合规检查、采购流程及委员会签核,这些因机构而异且常引入数月延迟。数字健康企业家的访谈说明了累积效应:显著比例将漫长销售与审批周期视为主要障碍,获得组织采纳的平均时间约13个月。因AI系统需随数据和工作流程演进而持续验证,这些缓慢周期造成积压、错失临床相关窗口及随时间累积的机会成本。
**以治理为中心的障碍**
治理框架通过使验证许可难以确定及执行不一致而进一步约束采纳。围绕次级分析中受保护健康信息(Protected Health Information, PHI)使用的不确定性(尤其针对本地验证)造成延迟,因机构缺乏何时同意、伦理审查或监管许可即属充分的标准。治理决策亦常混淆披露风险与允许应用,即使在受控机构环境内进行分析亦导致过度限制解读。监管不确定性放大保守主义,尤其临床AI/ML被视作医疗器械软件(Software as a Medical Device, SaMD)时。认证路径可能昂贵缓慢,阻碍评估并限制迭代验证。不同审批路径、风险容忍度及监督模型迫使每次部署应对定制化且不透明的决策结构,阻碍协议或证据的跨场所重用。
**系统层面后果**
这些障碍共同产生可预测的系统层面的失败:重复劳动、不公平的获取及资源浪费。因验证和治理在每个机构反复重建,相似模型被独立重复评估,方法与证据重用有限。此碎片化将成功采纳集中于资源充足环境,限制其他机构的参与。结果是全球临床AI/ML开发由高收入国家主导,73%的低资源医疗系统缺乏使能基础设施。成本可观:单一分析工具的本地开发与整合可超过22万美元,仅质量报告的系统性数据标准化成本即达数十亿,同时约60%的临床AI/ML项目未能超越试点测试。行业与政策分析表明,这些摩擦将创新从医疗服务场景中转移出来,减慢相对于其他领域的扩散速度,强化患者获益的错失机会。
**从自由裁量式信任到临床AI/ML中的可信系统**
跨越创新-实践鸿沟需要重构信任,从由人赋予转变为通过设计产生并经由可验证系统行为维持。
**个人与委员会的信任局限**
临床AI/ML中的传统信任模型严重依赖人类裁量,主要依靠个人和审查委员会的判断来确定系统是否安全、适当或可靠。然而,在复杂的社会技术环境中,这些方法无法规模化。关注个人信念忽视了关系和系统层面的动态,并假设了对数据驱动系统的理解水平,而这些系统的行为随时间变化。基于委员会的信任决策常由非正式、主观的评估而非标准化、可复现的标准塑造,优先熟悉度、声誉或机构地位而非可证明的系统属性。这导致不同机构间模型或供应商评估的不一致、采纳延迟及创新获取的不公平。这些模式共同揭示了面对不断演进的模型、数据漂移和隐藏依赖时,自由裁量式信任的结构局限性,其将不可持续的认知负担置于用户身上,进而滋生不信任。
**自由裁量式信任与可信设计**
这些局限指向自由裁量式信任与可信设计之间的根本区别。自由裁量式信任依赖关键决策点的人类判断,评估模型是否安全、数据使用是否适当或风险是否可接受。人类监督虽必不可少,但将主观性嵌入预期随时间一致运作的流程,使信任脆弱且难以跨情境再现。可信设计则采取不同路径,将可信性直接嵌入系统架构、治理结构和运营工作流程。当代研究倡导设计系统及其治理,使可信性证据明示化、系统化传达,并由组织和监管机制支持。此模型中,信任非事后判断而是系统的有意属性,通过迭代设计、部署、监测和修订塑造。人类监督的角色转变为充当系统可信属性明确、可测试且可执行的监管者,使信任得以规模化维持。
**临床AI/ML中作为系统属性的信任**
若临床AI/ML中的信任须通过设计产生,系统本身必须成为信任的首要对象,并具备随时间可靠行为的证明能力。社会技术研究示明,人们常基于人工制品和基础设施的性能与约束予以信任。例如虚拟研究与数据平台中,用户信任系统保存数据完整性、执行访问控制及维持跨用户和时间连续性的能力。由此视角,可信性是系统层面属性,通过鲁棒性和可恢复性等结果评估,由能力、正直、可预测性和透明性塑造。
遗留医疗信息系统仍广泛使用,但与数据孤岛、互操作性障碍及因过时协议导致的重大安全漏洞相关,使其不适合作为现代、安全、数据驱动照护基础设施的基础。这些框架依赖基于策略的控制和人员合规来管理风险。数据一旦被复制或共享,技术控制即被法律和程序执行取代,使去标识化和审批工作流补偿其无法完全弥合的架构缺口。这些方法将过度信任置于人员和流程,并施加高合规开销而不提供可验证保证。临床AI/ML中,最佳信任实现方式为使系统允许在不暴露数据的情况下进行分析,使技术保证(而非人类裁量)成为信任的基础。
**可信系统**
信任被理解为系统层面属性后,可信系统成为可信设计在临床AI/ML中付诸实践的手段。这些系统将隐私、完整性、可审计性和问责性直接嵌入临床AI/ML环境,约束系统行为使可接受使用默认执行而非逐案评估。
可信系统的设计属性。不同实现中,临床AI/ML的可信系统共享一组共同架构属性:数据托管权不转移,数据保留于承保实体受控环境中,消除复制、导出和次级储存库;机密计算保护使用中的数据,硬件强制隔离在执行期间阻止对数据和模型的访问——此时传统上最易受攻击;目的限制由机器强制执行,算法绑定于明确声明的用途、期限和约束;访问在条件变化时自动终止;输出受治理而非假定安全,系统性地应用聚合阈值、发布控制和泄漏保障以防止重识别或推断攻击;数据与算法对称保护,患者数据与算法知识产权均受保护,实现协作而无过度暴露;可验证性取代盲目信任,系统生成加密或可审计证据,证明何种代码运行于何种数据、为何目的、在何种环境中。
这些属性共同将信任从意图和监督转向可证明的系统行为。
**跨技术与治理层实现可信系统**
临床AI/ML中的可信系统非通过单一技术实现,而是通过多层架构在计算和治理的多层面强化信任。隐私增强计算、可信执行环境和可信研究环境应对不同但相互关联的信任失败,共同将可信设计转化为运营保证。
隐私增强计算使敏感健康数据的有意义分析成为可能,同时限制数据生命周期全程(包括主动计算期间)的披露风险。非将数据访问本身视为主要威胁,这些方法认识到风险源于不受控的披露而非受约束的分析使用。通过引入形式化保证(包括差分隐私(differential privacy)、联邦学习(federated learning)和同态加密(homomorphic encryption)等技术所提供的),隐私增强方法限制即使从去识别化数据或训练模型中对个人的可学习信息量,使AI/ML系统在不暴露基础信息的情况下生成及时、定制化推断。虽引入额外技术复杂性,但为限制性数据共享实践提供了原则性替代方案,支持无需集中数据汇总的本地验证与协作。
可信执行环境(TEEs)通过基于硬件的隔离和加密扩展隐私增强计算,保护使用中的数据。计算在内存加密且即使底层操作系统或云提供商亦限制访问的安全飞地(secure enclaves)内执行,限制最易受攻击处理阶段的暴露。虽临床部署尚属新兴,TEEs正日益被视为可信AI推理基础设施的基础组件,结合加密保护与硬件保证以在执行为间保护模型与敏感输入。TEEs确保仅批准的代码可运行且数据在执行期间保持受保护,以可执行技术保障取代对操作者信任的依赖。
可信研究环境(TREs)定义为经培训人员与约定流程支持、为敏感健康数据的受控使用提供安全分析平台的环境。通过结合行政、技术和程序保障,TREs支持研究数据访问同时保护患者隐私及满足临床与研究治理要求。当代TREs实施细粒度访问控制、持续监测和全面审计追踪,确保仅经批准用户为经批准目的访问特定数据集,且所有交互和输出在发布前被记录和审查。通常围绕五安全框架(Five Safes framework)构建,TREs通过将治理规则直接编码为系统行为来操作化信任,减少围绕允许用法的歧义,强化问责,并在临床AI/ML系统规模化复杂性的同时支持公众信任。
**可信系统作为可规模化临床AI/ML采纳的路径**
综合而言,隐私增强计算、可信执行环境(TEEs)和可信研究环境(TREs)展示了可信系统如何通过将自由裁量式信任要求转化为可执行的技术和组织约束来应对临床AI/ML采纳障碍。可信系统不依赖个人专业知识或主观委员会判断,而将隐私保护、验证约束和使用规则直接嵌入基础设施。可控环境配以可复现的数据访问、日志和监测,支持可重复的本地验证。标准化评估接口和独立本地测试集支持跨模型和跨场所的公平比较,直接应对关于不一致报告和不可复现结果的长期关切。同时,治理通过将抽象规则转化为具体系统约束而明示化和可执行,规制谁可在何种条件下、以何种输出许可运行何种代码于何种数据之上。重要地,可信系统不取代伦理、监督或人类责任;而是提供规模化操作化信任所需的基础设施,使临床AI/ML安全地跨机构评估、治理和部署。
**采纳框架**
可信系统的采纳需要少量审慎的机构承诺:分离数据使用与披露,投资标准化本地验证基础设施,以及支持参与联邦评估网络。这些承诺共同定义了可信设计在实践中得以实现的最低条件——将信任从自由裁量式判断转向可执行系统保证。
医疗系统可通过聚焦于系统层面能力(而非个人信心或供应商保证)来评估可信临床AI/ML采纳的准备度。关键标准包括:隐私保证是否于访问、计算和输出发布期间保护数据;数据使用和模型执行是否可审计和可验证;验证是否跨时间、数据集和情境可复现;可信环境是否与现有临床、数据和治理工作流程整合。围绕这些问题构建评估,可支持对机构准备度的客观评估并减少转向重量身定制审查流程的依赖。
通过将信任视为基础设施而非愿望,可信系统提供创新持续临床使用之间所缺失的桥梁。其使临床AI/ML超越孤立试点,迈向安全、公平且持久的部署——使信任无需反复争辩,而可大规模证明、执行和维持。
**讨论与结论总结**
临床AI/ML创新与真实世界使用之间的鸿沟源于无法规模化信任,而非模型性能不足。对自由裁量式、基于人员和流程的验证的依赖已被证明缓慢、脆弱且不公平。可信设计将信任重构为系统属性,将隐私、验证和治理的可执行保证直接嵌入基础设施。可信系统支持可复现的本地评估和持久部署,为临床AI/ML超越试点、迈向持续、安全和公平的临床影响提供实践路径。
打赏