利用胎儿超声成像进行胎儿主动脉弓中断的产前检测的联邦学习方法

时间：2026年2月7日

来源：Biomedical Signal Processing and Control

编辑推荐：

首次应用联邦学习于胎儿超声图像筛查罕见心脏缺陷IAA，通过5家医疗机构4000+异构图像，对比FedAvg/FedProx/FedBABU及ResNet-50/EfficientNet-B3/DenseNet-121，证明联邦学习在数据稀缺中心提升召回率与F1分数，且DenseNet-121跨机构泛化最佳，FL显著降低模型性能方差，为隐私保护下罕见病筛查提供可扩展框架。

韩建成|王和清|冯一凡|杨琦|李景坦|张浩杰|何一华|刘江|中村彻|曹阳|孙奈迪|钱坤|胡斌|高新茹|夏燕|翁宗杰|比约恩·W·舒勒|山本良晴

北京安贞医院超声心动图医学中心，首都医科大学，北京，中国

摘要

本研究首次将联邦学习（FL）应用于利用胎儿超声图像进行主动脉弓中断（IAA）的产前检测。为了解决数据稀缺、隐私限制和机构间差异性的挑战，我们开发了一种联邦学习IAA检测方法，并在五个临床中心系统评估了三种代表性策略（FedAvg、FedProx和FedBABU）。结果表明，在数据稀缺的中心，FL在召回率和F1分数方面优于本地训练。在比较的三种CNN架构（ResNet-50、EfficientNet-B3和DenseNet-121）中，DenseNet-121表现出更优的整体性能，尤其是在非独立同分布（Non-IID）场景中。我们的框架证明了无需数据共享即可实现罕见疾病检测的协作式AI的可行性，为可扩展的先天性心脏病产前筛查奠定了基础。

引言

主动脉弓中断（IAA）是一种罕见但严重的先天性心脏病，其特征是升主动脉和降主动脉之间存在完全的解剖学中断[1]。尽管IAA占先天性心脏病（CHD）病例的比例不到1%，但由于其临床严重性以及中国和印度等国家的较高出生率[2]，它仍然是产前筛查的重要问题。如果没有及时诊断和手术干预，IAA通常会在出生后不久导致严重的循环衰竭，从而导致较高的新生儿死亡率[1]。然而，由于其发病率低，单个医疗中心通常只遇到有限数量的病例，这给通过传统数据驱动方法开发准确且泛化的诊断模型带来了重大障碍[3]、[4]、[5]。此外，IAA包含不同的解剖亚型，具有异质的临床表现，进一步复杂化了产前诊断。

临床上，IAA不是一个统一的实体，而是包含几种具有不同临床意义的解剖亚型。根据中断的解剖位置，IAA通常分为三种亚型[6]：A型，中断发生在左锁骨下动脉远端；B型，中断位于左颈总动脉和左锁骨下动脉之间；C型，其特征是中断发生在左颈总动脉近端。其中，B型在临床实践中最为常见，并且经常伴有其他心脏异常。

作为最严重的先天性心脏病之一，IAA需要在出生后立即进行新生儿干预。如果没有及时诊断和手术治疗，受影响的新生儿可能会迅速发展成严重的充血性心力衰竭，据报道新生儿死亡率可高达90%[7]。因此，准确识别IAA对于围产期管理、分娩计划和产后手术结果至关重要。胎儿超声心动图仍然是IAA产前筛查和诊断的主要方法[7]。然而，由于操作者的依赖性、解剖学的复杂性以及机构间的显著差异性，IAA的诊断性能在不同中心之间差异很大，报道的产前检测率从0%到100%不等[8]。

除了其固有的临床复杂性外，IAA的低发病率还为数据驱动的诊断建模带来了根本性的挑战。与常见疾病不同，常见疾病通常可以在单个机构内收集到大型数据集，而像IAA这样的罕见先天性异常需要从多个临床中心聚合数据来训练可靠且泛化的模型。然而，由于严格的数据保护协议、机构隐私政策以及围绕使用敏感医疗信息的伦理考虑（特别是在胎儿和儿科人群中）[9]、[10]、[11]，这种聚合在实践中难以实现。这些因素导致各个机构之间存在孤立的数据库，从而产生不完整的数据集，不足以开发出稳健的模型[12]。对于每个病例都至关重要的罕见疾病，这种数据整合的缺乏大大阻碍了人工智能在早期和准确诊断方面的潜力[4]、[13]。

为了解决这些挑战，联邦学习（FL）作为一种有前景的解决方案应运而生。FL是一种去中心化的机器学习范式，允许多个机构在不交换原始患者数据的情况下协作训练AI模型[14]。相反，每个机构保留自己的本地数据集并独立计算模型更新。只有加密的模型参数（如梯度或权重）被传输到中央服务器，该服务器将它们汇总以更新全局模型。这种方法保护了患者隐私，并遵守数据保护法律，同时实现了跨机构协作[15]、[16]。对于需要汇总数据但通常被禁止的罕见疾病建模，FL提供了一种强大的机制，可以在尊重伦理和法律约束的同时克服数据稀缺问题[17]、[18]、[19]。

在产前诊断的背景下，胎儿超声成像是用于筛查结构性心脏缺陷（包括IAA）的主要方法[20]。超声具有广泛的可访问性、实时性和非侵入性，非常适合胎儿检查。标准的心脏视图（如四腔视图和流出道视图）在产科扫描期间常规获取[21]。然而，这些图像的解释高度依赖于操作者，并且技术上具有挑战性[22]。图像质量可能因胎儿运动、声学阴影和对比度差而降低，检测像IAA这样的复杂异常需要丰富的专业知识[23]。即使是经验丰富的超声技师也可能错过细微的异常，导致漏诊或延迟诊断[24]。这些因素突显了需要强大的AI系统来协助临床医生提供一致和准确的胎儿心脏超声图像解释。

尽管AI在产前成像方面具有巨大潜力，但现有的模型通常使用单中心数据集开发，这些数据集在规模和多样性方面存在固有的限制——特别是对于罕见疾病[25]。这样的模型在内部数据上表现良好，但由于成像协议、机器供应商和患者人群的差异，无法在不同机构之间泛化。这种缺乏泛化的现象进一步强调了需要协作式、保护隐私的学习方法。FL不仅解决了数据共享的法律和伦理限制，还能够在异构的多机构数据集上训练模型[26]。这种多样性提高了AI模型的稳健性和适应性，特别是在应用于与原始训练环境不同的实际临床环境时[27]、[28]。

虽然FL在其他医学成像领域（如MRI、CT和组织病理学）中取得了进展，但在胎儿超声中的应用仍然有限。大多数先前的研究集中在常见的产科任务上，如胎儿平面分类或妊娠年龄估计[29]、[30]。很少有研究解决在联邦环境中检测罕见先天性心脏病的挑战，据我们所知，没有现有工作专门将FL应用于使用胎儿超声进行IAA检测。鉴于该疾病的罕见性和对广泛数据多样性的需求，这一应用领域代表了一个关键但未充分探索的机会。

鉴于数据稀缺、隐私限制和罕见先天性心脏病筛查中的机构间异质性等上述挑战，本研究的主要贡献总结如下：

(1) 我们首次将联邦学习应用于胎儿超声成像，以实现保护隐私的IAA产前检测。

(2) 我们从五个临床站点收集了

>

4000张异构的胎儿超声心动图图像，并对三种代表性的联邦策略——FedAvg [31]、FedProx [32]和FedBABU [33]进行了系统评估。

(3) 我们全面比较了三种CNN架构——ResNet-50 [34]、EfficientNet-B3 [35]和DenseNet-121 [36]、[37]——在联邦环境下的表现，证明DenseNet-121在跨站点泛化和召回率方面表现更优。

(4) 我们的实验表明，联邦框架在数据稀缺的中心提高了召回率和F1分数，验证了其在罕见先天性心脏病筛查中的实际临床价值。

提出的模型

在这项研究中，我们采用FL框架在胎儿超声心动图图像上协作训练深度学习模型，旨在在不共享原始数据的情况下识别IAA的存在。为了提高模型性能和泛化能力，特别是在数据稀缺的医学成像任务中，我们通过利用在ImageNet数据集上预训练的三种广泛采用的卷积神经网络（CNN）——ResNet-50——来增强模型性能和泛化能力

数据集

我们回顾性地收集了2014年3月至2024年12月期间来自三个医疗中心的2D胎儿超声心动图图像，涵盖了妊娠年龄在19.3至36.6周之间的胎儿。数据集包括两个标准视图：三血管和气管（3VT）视图以及主动脉弓（AA）视图，这些视图符合《胎儿超声心动图性能指南和建议》（美国超声心动图学会，2020年更新）的建议。所有图像都

联邦学习策略的性能和可靠性

实验结果表明，FL在提高模型对阳性病例的敏感性（召回率）和整体平衡（F1分数）方面提供了显著改进。这种优势在数据量有限或分布不均的中心（如安贞1和宁夏）尤为明显。重要的是，除了平均性能指标的改进外，FL还显著降低了重复实验结果的标准差。

结论

在这项研究中，我们首次将FL应用于使用胎儿超声成像进行IAA的产前检测。通过对三种FL策略和三种CNN架构的全面评估，我们证明了FL能够显著提高诊断性能——特别是在数据可用性有限的设置中。除了提高平均准确性外，我们的结果还表明，FL通过减少模型性能的方差显著提高了临床可靠性

CRediT作者贡献声明

韩建成：撰写——审稿与编辑、监督、资源管理、项目协调、资金获取、数据整理、概念化。王和清：撰写——审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论、概念化。冯一凡：撰写——审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论、研究、概念化。杨琦：撰写——审稿与编辑、资源管理、数据整理，

利益冲突声明

所有作者之间没有利益冲突。

致谢

本工作部分得到了中国自然科学基金（编号 L222152 和 L243034）、国家自然科学基金（编号 62272044 和 62227807）、国家重点研发计划（编号 2023YFC2506804）、中华人民共和国科学技术部的STI2030重大项目（编号 2021ZD0201900）以及北京工业大学的Teli青年学者计划的支持。