综述:AI驱动的整合医疗中的研究诚信与数据伦理:批判性评估

时间:2026年5月28日
来源:Frontiers in Public Health

编辑推荐:

人工智能(AI)与医疗的融合正在重塑临床实践,但这一转变引发了关于科学严谨性和伦理责任的紧迫问题。本综述对AI在整合医疗环境中实施所涉及的特定研究诚信和数据伦理考量进行了批判性评估。研究人员分析了2019年至2025年的同行评审文献,重点关注算法透明度、模型验

广告
   X   

人工智能(AI)与医疗的融合正在重塑临床实践,但这一转变引发了关于科学严谨性和伦理责任的紧迫问题。本综述对AI在整合医疗环境中实施所涉及的特定研究诚信和数据伦理考量进行了批判性评估。研究人员分析了2019年至2025年的同行评审文献,重点关注算法透明度、模型验证与可复现性、偏差检测、隐私保护、知情同意范式以及治理框架。分析揭示了一个根本性张力:AI开发的数据密集性特征常常与既定的患者自主权和数据保护原则相冲突。深度学习模型的不透明性挑战了传统的科学透明度标准,而反映历史医疗差距的数据集则存在编码和放大偏差的风险。研究人员提出了一个综合的治理模型,该模型将技术验证与伦理监督相结合,强调了前瞻性临床试验、多元化利益相关者参与以及适应性监管方法的必要性。本综述为研究人员、临床医生和政策制定者在驾驭AI创新与医疗伦理这一复杂交叉领域时提供了实用指导。
人工智能(AI)——涵盖机器学习算法、深度神经网络、自然语言处理和计算机视觉系统——已进入现代医学的几乎所有领域,从解读医学图像到预测疾病轨迹以及个性化治疗方案(1, 2)。近期的发展,包括能够同时整合影像、基因组和临床数据的大规模基础模型和多模态系统,已将这些能力扩展到五年前难以想象的地步(3, 4)。这种技术转变在整合医疗系统中尤为显著,在该系统中,跨提供者和设置的协调护理产生了庞大的、适用于计算分析的临床数据集(5)。这些数据集的规模和复杂性使得十年前难以想象的AI应用成为可能,但同时也暴露了我们在进行、报告和治理医学研究方面的根本性脆弱性。

两个相互关联的必要条件必须指导这一转型。首先,当算法取代或增强人类判断时,研究诚信——对透明度、可复现性和诚实报告的承诺——面临新的挑战。传统的同行评审难以评估那些关键方法论细节存在于数百万模型参数而非明确分析步骤中的研究(6)。其次,当患者信息推动具有不确定下游应用的迭代算法开发时,数据伦理——包括隐私、同意和公平获取——获得了新的维度(7, 8)。治理这一生命周期需要与AI系统技术成熟度保持一致的框架,并随着模型从训练阶段到真实世界测试再到上市后监测而逐步加强监督(9)

这些问题的交集既非理论性也非遥不可及。一个被广泛部署的用于识别需要额外护理患者的算法被发现系统性地低估了黑人患者的疾病严重程度,并非因为程序错误,而是因为历史数据反映了医疗利用方面的现有差异(10)。后续的实证研究已证实并扩展了这一发现:深度学习模型可以从医学图像单独识别患者种族——这引发了关于算法可能以开发者既未意图也未察觉的方式利用的嵌入式人口统计信息的担忧(11)。即使在训练特征中明确排除了种族和族裔类别,诊断准确性在不同亚组之间仍然存在精细的差异,这表明偏差通过复杂、间接的路径运作,而这些路径被整体性能指标所掩盖(12)。这些例子突显了技术复杂性无法替代伦理警惕。本综述审视了研究诚信和数据伦理挑战如何在AI开发生命周期中表现,从数据收集到临床部署。研究人员综合近期证据以确定最佳实践,并提出了一个解决医疗AI科学和伦理两个维度的综合框架。

人工智能在当代医疗中的应用
过去十年见证了AI在临床医学中应用的指数级增长。文献计量学分析显示,2010年至2024年间,医疗AI出版物增长了30倍以上,其中在肿瘤学、心脏病学和放射学领域扩张尤为迅速(13)。本节概述主要应用领域;图1展示了这些应用运行的概念框架,其中研究诚信和数据伦理作为两大支柱,管辖所有领域负责任的AI实施。

临床决策支持
AI驱动的临床决策支持系统(CDSS)整合来自电子健康记录、实验室检测值、影像学研究和基因组数据的信息,以生成诊断和治疗建议(14, 15)。在心脏病学领域,基于心电图数据训练的深度神经网络在检测心律失常方面已达到心脏病专家水平的准确度(16)。肿瘤学应用扩展到根据肿瘤基因组学推荐个性化化疗方案(17)。这些系统有望减少诊断错误并标准化护理质量,尤其是在专家稀缺的环境中。

然而,从算法开发到临床部署的转化已被证明比早期热情所暗示的更为困难。基于精选数据集的回顾性验证常常高估了真实世界性能(18)。在前瞻性部署中,许多CDSS由于患者群体、临床工作流程和数据收集实践的差异而表现出准确度下降(19)。复杂模型的不透明性——常被称为“黑箱”——进一步使临床应用复杂化。医生和患者理所当然地期望对影响治疗决策的建议进行解释,这产生了对可解释性的需求,而当前技术方法仅能部分满足(20)

医学影像分析
计算机视觉在医学图像解读方面取得了显著成功。卷积神经网络从眼底照片检测糖尿病视网膜病变的灵敏度可与眼科医生媲美(21),在乳腺X线筛查中识别恶性病灶(22),以及从皮肤科图像中分类皮肤癌(23)。这些应用解决了真实的临床需求,包括筛查瓶颈和放射科医师间的观察者间变异性。

性能泛化仍然是一个持续性问题。主要来自资源丰富的学术中心图像训练的算法,当应用于来自社区医院或具有不同成像设备和协议的低资源设置的数据时,可能表现不佳(24)。主要在浅肤色个体上训练的皮肤科AI系统对深色皮肤的准确性降低,这说明数据集组成直接影响了临床实用性(25)。这些局限性强调了使用多样化、代表性训练数据以及进行严格外部验证的重要性。

预测分析与人群健康
机器学习模型越来越多地通过预测再入院率、急诊科利用率和慢性病进展来指导人群健康管理(26, 27)。此类预测使得主动干预成为可能,符合强调预防而非治疗的基于价值的护理模式。COVID-19大流行加速了流行病学AI应用的兴趣,算法分析移动模式和临床报告以预测感染传播(28)

预测模型继承了其训练数据中嵌入的偏差。如果历史记录反映了差异化的医疗获取——无论是由于保险状态、地理位置还是歧视——模型可能在客观预测的幌子下延续这些不公平(29)。无意中不利于弱势群体的风险分层工具引发的伦理担忧,超越了技术准确性,延伸到分配正义的问题。图示说明了涵盖所有这些应用的总体概念框架——包括AI实施与其两大支柱(研究诚信和数据伦理)之间的双向关系。

研究诚信挑战
透明度与可解释性
科学透明度能够实现审视、复制和迭代改进——这些是循证医学的基本原则。拥有数百万参数的深度学习模型抵制直接解释,造成了批评者所称的“黑箱”问题(30)。可解释AI(XAI)领域已经用跨越两种根本不同范式的多样化工具集进行了回应:事后解释技术近似地再现训练后模型的推理过程,以及内在可解释(“设计即解释”)方法,其约束模型架构以实现直接检查(31, 32)

事后方法主导了当前的临床AI实施。基于梯度的显著性图和类激活图突出影响预测的图像区域,为临床医生提供可理解的视觉解释(31)。局部可解释模型无关解释(LIME)和SHapley加法解释(SHAP)基于博弈论原理,将单个预测分解为特征层面的贡献,并已应用于包括死亡率预测、败血症风险和肿瘤决策在内的多个临床领域(33)。基于Transformer的架构引入了注意力机制,该机制指示模型对输入区域分配了最大权重;在眼科学中,视觉Transformer中的聚焦注意力已被证明以专家可解释的方式与临床相关的视网膜结构一致(34)。反事实解释提供了一个补充视角,通过识别改变模型输出所需的输入的最小变化,支持在关键护理场景中的可操作临床推理(35)

尽管存在多样性,事后方法共享一个根本局限性:它们近似地而非忠实地表示模型推理,且其保真度可能随着模型复杂性的增加而降低(36)。设计即解释模型——包括决策树、基于规则的系统和单调神经网络——以牺牲部分预测性能为代价,换取直接的机制透明度,仍然是问责要求无法通过事后近似满足的最高风险应用的首选(32)。因此,监管和临床环境需要沿着可解释性-性能权衡进行深思熟虑的选择,期刊编辑和监管机构都应要求标准化报告应用了哪种XAI方法、为何应用及其已知局限性。

可复现性与验证
影响生物医学研究的更广泛的可复现性问题对医疗AI构成了严峻挑战。系统性综述揭示,许多已发表的AI研究提供的方法论细节不足以进行复制(37, 38)。影响因素包括数据预处理步骤报告不完整、模型代码和训练数据的专有权限制,以及对训练过程中随机初始化的敏感性。尽管伦理上重要,但阻止数据共享的隐私约束进一步阻碍了独立验证。

严格的验证需要多种互补方法。使用留出测试集的内部验证确立了基线性能,但当同一数据集用于模型选择和评估时,这种方法容易产生乐观偏差。嵌套交叉验证——其中外层循环估计泛化性能,而内层循环执行超参数调整——提供了对预期性能的无偏估计,应被视为单中心研究的最低标准(在数据集大小不允许单独留出集时)(39)。在来自不同机构的独立数据集上进行的外部验证测试泛化能力(40, 41);时间验证评估在模型训练后收集的数据上的性能,以解决数据集偏移问题(42)。现在已有临床预测模型开发和外部验证的结构化指导(41, 43),作者和审稿人应常规参考。前瞻性临床试验仍然是证明真实世界有效性的金标准,尽管只有相对较少的AI应用经过此类评估(44)

算法偏差
偏差通过多种途径进入AI系统。训练数据可能未能充分代表某些群体,导致模型在不同人口统计组别间表现不一(45)。一项里程碑式的实证研究表明,在医学影像上训练的深度学习模型能够以高准确度从胸部X光片识别患者种族——这一能力既非开发者编程也非预期——引发了关于人口统计信息如何嵌入成像数据,并可能被算法无意中利用以产生不同临床结果的深刻担忧(11)。精细分析进一步揭示,粗糙的种族和族裔标签掩盖了重要的亚组差异:模型可能通过整体指标表现出可接受的性能,但同时系统性地漏诊特定社区(12)。编码在病历中的历史性歧视模式——例如差异化的转诊率或诊断延迟——可以被算法学习和放大(46)。其后果超越统计差异,当预测系统性地对本已边缘化的患者不利时,会造成切实的临床伤害。

偏差检测需要在由种族、性别、年龄、社会经济地位和地理区域定义的相关亚组中进行分解性能评估(47)。尽管已经提出了多种公平性指标,但数学约束阻止了同时满足所有公平定义(48)。缓解策略贯穿开发流程:预处理阶段的数据增强和重加权、模型训练期间的公平性约束以及后处理阶段的输出校准(49)。仅靠技术干预是不够的,还需要多元化的开发团队、社区参与以及部署后的持续监测。

报告标准
不充分的报告削弱了读者、评审者和临床医生对AI研究进行批判性评估的能力。研究常常省略对复制至关重要的细节,如超参数设置、数据分割程序和预处理步骤(50)。对这些不足的认识促使了AI特定报告指南的制定:用于AI干预随机试验的CONSORT-AI、试验方案的SPIRIT-AI以及预测模型研究的TRIPOD-AI(51–53)。采用仍然是自愿且不一致的,限制了它们对出版实践的影响。

数据伦理考量
隐私与数据保护
医疗AI开发需要大量患者数据,这与隐私原则存在内在张力。电子健康记录包含敏感信息,其聚合和计算分析产生的隐私风险超过了传统临床用途(54)。证明可以从表面匿名数据集中重新识别的研究挑战了关于充分去识别化的假设,尤其是在链接攻击变得更加复杂的情况下(55)

技术方法提供了部分解决方案。差分隐私向数据集中添加校准噪声,提供了防止个人识别的数学保证,同时保留了整体统计特性(56)。联邦学习能够在无需集中原始患者信息的情况下,跨分散的数据存储库进行模型训练(57)。同态加密允许对加密数据进行计算(58)。每种技术在隐私保护和模型性能之间涉及权衡,实际实施面临计算开销和潜在漏洞,值得持续研究。

监管框架建立了具有显著司法管辖区差异的基线保护。欧盟的《通用数据保护条例》(GDPR)对个人数据处理施加了严格要求,包括对自动化决策的“解释权”(59)。美国的《健康保险流通与责任法案》(HIPAA)定义了受保护的健康信息,并建立了隐私和安全标准(60)。欧盟的《人工智能法案》(Regulation EU 2024/1689)作为世界上第一个专门针对AI系统的综合法律框架,将医疗AI归类为高风险,并强制要求合规评估、技术文档、透明度义务和人类监督条款——为寻求进入欧盟市场的开发者建立了更明确但要求更高的监管途径(61)。对于跨国研究合作和全球AI开发而言,驾驭这些异构且快速演变的要求构成了相当大的挑战,需要将前瞻性监管情报作为一项机构能力(62, 63)(表1)。

知情同意
传统的知情同意假设数据用途可以在收集时明确指定。AI开发通过迭代的、演变的、无法完全预期的应用打破了这一假设(64)。同意研究糖尿病管理的患者可能没有预见到其数据可能有助于训练与不相关疾病或商业产品相关的算法。AI系统的技术复杂性进一步使有意义的同意变得紧张,因为患者可能缺乏理解其信息将如何被处理的专业知识。

替代性同意模式试图解决这些局限性。广泛同意允许在一般类别内用于未指定的未来研究,为了实用性而牺牲了特异性(65)。动态同意采用数字平台,使患者能够在新的用途出现时更新偏好(66)。分层同意提供具有不同数据共享级别的渐进式选项(67)。没有一种模式能完全解决全面披露与实际可行性之间的紧张关系,这表明仅靠同意无法承担伦理数据治理的全部重量。

公平与公正
AI系统以复杂的方式与长期存在的医疗不公平模式相互作用。技术通过改善可及性、标准化护理规程和客观决策支持来减少差距的潜力,与自动化可能放大现有偏见的风险并存(68, 69)。反映历史不公的数据集编码了这些模式,在此类数据上训练的模型可能在计算规模上延续歧视。

需要考虑公平性的多个维度。分配公平性询问谁从AI技术中受益,以及优势是否在不同人群中公平积累(70)。程序公平性检查开发过程是否真正纳入了多元化的利益相关者(71)。承认公平性考虑系统是否尊重人类尊严并承认健康的社会决定因素(72)。实现公正需要在整个AI生命周期中给予明确关注,从问题构思到部署和监测,并基于与受影响社区的参与,而非自上而下地强加。

数据治理框架
健全的治理结构为合乎伦理的AI开发提供了必要的基础设施。有效的治理包括指导数据收集、管理、共享和使用的政策和程序,同时平衡创新、隐私、公平和问责等竞争性价值(73)。数据管理强调以患者最佳利益行事的受托义务,包括维护保密性、确保数据质量、促进有益用途和推进健康公平(74)

多利益相关者治理模型纳入了患者、临床医生、研究人员、管理人员和社区代表的观点(75)。研究数据网络和安全存储库等数据访问机制能够在不分发的情况下进行分析,平衡了开放与保护(76)。区域影像生物库的现实世界经验说明了所涉及的实际治理复杂性。NAVIGATOR计划是一个用于精准肿瘤学的意大利区域性影像生物库,其系统记录了为AI模型开发聚合多机构影像数据时遇到的法律、伦理和互操作性挑战,证明治理必须不仅解决数据访问策略问题,还需解决元数据标准化、跨机构知情同意协调以及临床利益相关者持续参与等问题(77)。其后续扩展到整合影像、病理和分子数据的多模态AI平台,进一步凸显了治理复杂性如何随数据模态广度非线性增长(78)。在前列腺癌检测的大规模多中心机器学习研究中也记录了类似的挑战,其中数据来源、站点特定校准和独立验证的治理规定与技术模型开发本身一样要求严苛(79)。整合医疗系统的分布式性质——跨越多个机构和司法管辖区——使治理复杂化,需要在保持核心原则一致性的同时适应地方差异的联邦方法。

走向综合治理
研究诚信和数据伦理代表的是互补而非竞争的必要条件。透明的报告实践提高了可复现性,同时实现了伦理审视。多样化、代表性的数据集提高了模型的泛化能力并减少了歧视性偏差。能够实现更广泛数据访问的隐私保护技术可以加速验证研究。一种综合方法承认了这些协同作用,同时也承认了需要有意导航的真实张力。

将这一综合愿景转化为实践面临着治理框架必须直接面对的具体障碍。现实世界部署项目已经广泛记录,即使严格开发的算法应用于与训练环境不同的临床环境时也会退化——这是由异质的成像设备、不同的临床工作流程和变化的患者人口结构所驱动的(80)。区域影像生物库计划在数据共享需求和隐私保护要求之间面临着持续的张力,现实世界经验证实治理必须主动管理——而非假设消除——此类计划的操作限制(77, 81)。联邦学习架构通过在无需集中原始患者数据的情况下跨分散存储库进行模型训练提供了一种部分解决方案,但现实世界实施揭示了跨站点数据异质性、共享模型权重的参数管理以及在不直接访问数据的情况下进行质量验证的治理挑战(82)。多模态AI系统进一步放大了这些挑战:治理必须确保独立验证站点拥有可比的多模态数据资源,并且站点特定的校准程序不会引入新的偏差来源(78, 79)。这些经验共同强调,治理框架必须针对现实的实施条件而非理想化假设进行设计。

制度实施需要专门的AI监督结构,有权审查拟议应用、强制执行验证标准并监测已部署的系统(83, 84)。治理委员会应包括跨越临床医学、数据科学、伦理、法律和患者倡导的多元化专业知识。政策应在部署前建立清晰的偏差评估和公平影响分析程序,并对性能退化或新出现的伤害进行持续监测。本综述提出的生命周期治理模型(图2)通过五个连续阶段来操作化这些原则,每个阶段都需要在进展前获得有记录的检查点批准。(1)问题定义:正式记录临床用例、目标患者群体、潜在公平性影响和关键性能要求,并在开发开始前强制进行公平性利益相关者咨询。(2)模型开发:在模型卡中指定训练数据来源、人口构成、类别平衡和预处理程序;在模型冻结前完成初步偏差审计。(3)验证:使用留出测试集进行内部验证(或在数据集大小需要时使用嵌套交叉验证),辅之以来自独立机构的人口多样化数据集的外部验证,性能按种族、性别、年龄和社会经济状况分解报告;阻碍完全外部验证的数据共享约束必须记录并由治理委员会批准为已知限制。(4)部署:激活监测协议、性能退化警报阈值和上报程序;使用最适合临床环境的XAI方法为算法推荐提供面向临床医生的解释。(5)上市后监测:进行纵向性能跟踪,设定重新评估或模型撤回的预定触发器,包括随着临床实践模式变化进行系统性的偏差再评估。每个阶段生成结构化的文档输出,为上游修订提供信息并创建可审计的治理记录。

劳动力发展同样至关重要。医学教育必须整合涵盖技术基础、临床应用和伦理考量的AI素养(85)。数据科学家需要接触医疗领域知识和伦理框架。跨学科合作——汇集临床医生、工程师、伦理学家和受影响的社区——能够实现任何单一学科无法独立提供的整体评估(86)

监管方法必须在促进创新与保护患者之间取得平衡。基于风险的框架根据潜在危害校准监督强度,对高风险诊断应用比对低风险管理工具施加更严格的审查(87, 88)。欧盟《人工智能法案》将医疗AI指定为高风险类别,在立法层面正式化了这一原则,要求进行合规评估、技术文档、人类监督条款和与上述治理生命周期相一致的上市后监测计划(9, 61)。适应性监管允许随着证据积累和技术发展而更新要求。国际协调减少了碎片化,同时尊重了价值观和法律传统的司法差异(89)。图3所示的多层治理框架将监管意图转化为跨四个层级的操作实践。在顶层,国际监管机构和国家机构建立总体标准。第二层的医疗系统治理委员会将这些标准转化为网络范围政策,以适应机构差异,同时保持核心原则的一致性。在机构层面,伦理委员会、IT安全团队、临床信息学部门和临床领导层共同实施政策。在操作层面,该框架明确将临床医生、数据科学家、患者和伦理学家纳入为积极的治理参与者。双向架构至关重要:自上而下的政策指导辅之以结构化的自下而上的实施反馈,使治理能够根据一线经验进行演进。研究诚信原则——透明度、可复现性、验证、问责制——和数据伦理原则——隐私、同意、公平、行善、公正——支撑着所有四个层级。

未来方向
医疗AI格局持续快速演变。在大规模数据集上训练的基础模型和大语言模型展示了在临床文本生成、问答和诊断推理方面的卓越能力,但引发了关于训练数据来源、二次使用同意以及产生虚假信息可能性的未解决问题(3, 90)。系统分析揭示,临床大语言模型部署中不同人口统计群体之间存在显著的性能差异,模型对历史上代表性不足的群体表现出较低的准确率和较高的潜在有害输出率——在更广泛的AI系统中记录的偏差模式在规模上重现(91, 92)。大语言模型严格临床评估的框架仍处于萌芽阶段,方法论标准化代表着一项紧迫的研究优先事项(93)。整合影像、基因组和临床数据的多模态系统有望实现全面的患者建模,但同时放大了隐私风险和验证复杂性(4)。基于部署经验持续更新的持续学习算法带来了治理挑战,因为性能可能以不可预测的方向漂移(94)

重大的研究差距仍然存在。评估真实世界AI实施结果的前瞻性研究与回顾性算法开发相比仍然稀缺(95)。追踪模型性能数年而非数月的长期监测几乎不存在。评估不同AI方法彼此之间以及与传统护理相比的比较效果研究将为循证采用提供信息(96)。方法学创新需求包括:适应自适应算法的临床试验设计、承认竞争性定义的公平性评估框架,以及保持临床实用性的隐私技术(97)

结论
人工智能正在以充满希望又充满危险的方式改变医疗。在实现效益的同时减轻伤害,需要同时关注研究诚信——包括透明度、可复现性和偏差意识——以及数据伦理——包括隐私、同意和公正。这些必要条件不是创新的障碍,而是实现可信、可持续AI集成的基石。

前进的道路要求对治理结构和劳动力能力进行制度投资,要求在保护与灵活性之间取得平衡的监管框架,以及与数据和生活攸关的患者和社区的持续参与。技术卓越性必须伴随着伦理反思、严格验证和真正的利益相关者参与。通过同时致力于科学严谨性和伦理责任,我们可以引导AI融入医疗,实现平等服务于所有患者的结果。

生物通微信公众号
微信
新浪微博


生物通 版权所有