FCUFormer：一种基于多视图信息的视觉-语言基础模型，用于解读胎儿心脏超声异常

时间：2026年4月3日

来源：Biomedical Signal Processing and Control

编辑推荐：

胎儿心脏超声多模态预训练模型FCUFormer通过构建5495例标准化数据集，整合多视图超声图像与结构化临床报告，提出MV-MIL模块建模跨视图解剖依赖，ML-VLA模块实现多层级视觉语言对齐，在胎儿心脏异常诊断中平均准确率达87.37%，验证了零样本跨任务泛化能力。

Benshuang Chen|Yuan Zhao|Chenkang Du|Xueli Liu|Xinrong Chen

复旦大学生物医学工程学院，上海，中国

摘要

胎儿心脏超声（FCU）是产前筛查先天性心脏缺陷的主要成像方式，但由于其复杂的多视图依赖性和对专家知识的依赖，其解读仍然具有挑战性。尽管最近在医学人工智能（AI）方面的进展为辅助超声解读带来了希望，但现有的AI方法仍受到大量注释需求和有限的任务泛化能力的限制。为了解决这些挑战，我们引入了一个专门为胎儿心脏超声解读设计的视觉-语言预训练框架。为了实现可扩展的预训练，我们收集了一个包含5495条真实世界FCU记录的大型数据集，并开发了一个由大型语言模型（LLM）驱动的标准化流程，该流程能够将异构的自由文本报告和多视图图像转换为结构化格式，而无需大规模的手动注释。然后，设计了跨模态基础模型FCUFormer，从构建的预训练数据集中学习通用的视觉-语义表示。FCUFormer整合了两个创新模块：一个是多视图信息多实例学习（MV-MIL）模块，用于建模跨视图解剖依赖性；另一个是多级视觉-语言对齐（ML-VLA）模块，用于促进不同图像区域与临床描述之间的细粒度语义对应。最后，我们构建了一组由经验丰富的胎儿超声技师策划的下游评估数据集和标准化基准，以全面评估模型性能。FCUFormer在诊断各种胎儿超声异常方面的平均准确率为87.37%，展示了其在临床应用中的巨大潜力。这些发现强调了FCUFormer在真实世界临床环境中进行胎儿心脏超声解读的有效性和泛化能力。

引言

胎儿心脏超声（FCU）是产前筛查和诊断先天性心脏缺陷的标准成像方式，这是全球范围内最常见且最具生命威胁的先天性异常之一[1]。FCU能够实时、无创地可视化胎儿心脏的解剖结构和功能。然而，准确的解读依赖于对多个标准平面的协调分析，包括四腔心、流出道和三血管气管视图。这一任务由于固有的解剖变异性和对熟练超声技师专业知识的强烈依赖而变得相当复杂。

医学人工智能（AI）的最新进展在心脏超声解读方面显示出巨大潜力，包括心脏运动分析[2]、异常检测[3]和功能评估[4]。这些模型可以显著提高诊断效率和精度，特别是对于初级护理环境中的经验不足的临床医生[3]。然而，传统的AI模型严重依赖大规模、专家标注的数据集来实现准确性和泛化能力，而这些数据集的获取既耗时又费力。同时，这些模型通常是为单一任务设计的，这限制了它们在临床实践中的可扩展性和适应性。

大型语言模型（LLMs）和多模态视觉-语言模型（VLMs）的学习为构建通用诊断模型提供了有希望的方向，这些模型在最小监督下进行训练。医学视觉-语言预训练模型（MedVLMs）通过将医学图像与自由文本诊断报告对齐来学习视觉-语义表示，这些报告作为自然的监督[5]，[6]。这些模型在多个领域表现出色，如胸部X光[7]，[8]、组织病理学[9]和视网膜成像[10]。然而，多模态技术在FCU中的应用仍然很大程度上未被探索。这一空白促使我们开发了一个专门用于FCU的MedVLM，因为它有潜力弥合主观视觉解读与标准化临床报告之间的语义差距。通过利用常规诊断报告，这样的VLM可以避免繁琐的像素级注释，同时本质上捕捉到人类专家如何整合多视图发现的丰富复杂推理过程。

尽管医学视觉-语言模型取得了快速进展，但由于领域特定的障碍，开发有效的FCU MedVLM仍然具有挑战性。首先，缺乏专门为FCU定制的大规模预训练数据集。这源于获取足够胎儿心脏异常数据的难度、检查过程中解剖视图获取的不一致性以及高度异构的诊断报告[6]。其次，准确的FCU解读本质上需要整合多个标准化视图中的诊断线索[11]，而当前基于单平面分析或全局对齐的模型在这方面能力不足。第三，胎儿心脏报告通常描述特定视图中的局部异常，需要在视图特定的图像区域和文本描述之间进行细粒度对齐。因此，本研究解决了当前单图像VLM架构与临床对多视图上下文推理和细粒度文本对齐需求之间的根本语义差距[8]，[12]。

为了解决上述挑战，我们提出了一个专为FCU设计的领域特定视觉-语言框架。我们首先收集了一个包含5495条胎儿心脏超声记录的大型真实世界数据集，每条记录包含多个2D视图和自由文本诊断报告。为了支持视觉-语言学习，我们开发了一个由LLM引导的流程，该流程识别每个案例的五个标准视图，并将自由文本报告转换为结构化的、基于模板的描述，从而生成高质量的多模态训练数据集。

然后，设计了一个视觉-语言基础模型FCUFormer，用于多视图超声理解和报告生成（图1b）。FCUFormer将多视图超声图像与结构化的临床描述对齐，捕捉解剖背景和诊断语义。该模型引入了两个关键创新：一个是多视图信息多实例学习（MV-MIL）模块，用于建模跨视图的解剖依赖性；另一个是多级视觉-语言对齐（ML-VLA）模块，用于促进不同图像区域与临床描述之间的细粒度语义对应。最后，FCUFormer基于FetalCLIP[13]进行初始化，FetalCLIP是一个在最大公开可用胎儿超声数据集上预训练的编码器。通过对我们的标准化FCU数据集进行微调，模型学习了临床相关的视觉-语义表示。预训练后，FCUFormer可以应用于多种下游任务，包括心脏结构分类、异常检测和自动报告生成，而无需额外的手动注释。

实验结果表明，FCUFormer在结构化报告生成和标准视图分类方面达到了最先进的性能，并且在没有任务特定微调的情况下也展示了零样本异常分类能力。它准确估计了11个关键诊断指标（例如，主动脉覆盖、室间隔缺损、肺动脉狭窄），平均准确率为87.37%，突显了其在实际临床工作流程中的强大泛化能力和转化潜力。本工作的贡献总结如下：

1.
构建了第一个大规模的、基于LLM标准化的胎儿心脏超声预训练数据集，整合了结构化报告和多视图解剖图像，这是该领域的开创性工作。
2.
提出了第一个专为胎儿心脏超声设计的视觉-语言基础模型FCUFormer，无需大规模细粒度手动标签即可实现跨任务的强泛化能力。
3.
引入了两个新模块：一个是多视图信息多实例学习（MV-MIL）模块，用于建模跨视图解剖依赖性；另一个是多级视觉-语言对齐（ML-VLA）模块，用于促进不同图像区域与临床描述之间的细粒度语义对应。
4.
所提出的模型在结构化报告生成和零样本胎儿异常诊断的临床基准测试中达到了最先进的性能。

部分片段

多视图超声图像分析

基于人工智能的多视图超声医学图像分析技术取得了显著进展，特别是在胎儿和心脏成像方面。早期的方法主要解决单视图任务，例如胎儿超声中的标准平面检测[14]或超声心动图中的解剖结构分割[15]。为了解决胎儿心脏视图中分散的解剖结构的复杂性，He等人[16]提出了一个胎儿心脏超声模型（FCUM）

框架概述

在这里，系统地介绍了所提出的FCUFormer框架。首先，介绍了一个数据标准化流程，该流程专门为临床医学报告设计了提示工程技术。随后，我们强调了图2中显示的两个关键模块：一个是捕获跨视图特征依赖性的多视图信息多实例学习（MV-MIL）模块，另一个是建立

实验

结论

本研究介绍了FCUFormer，这是第一个专为FCU解读设计的视觉-语言基础模型。在该模型中，引入了两个创新模块：一个是用于显式跨视图推理的多视图多实例学习（MV-MIL）模块，另一个是用于分层语义对齐的多级视觉-语言对齐（ML-VLA）模块。这些模块是通过在包含5495个多视图的大规模、临床验证数据集上进行训练实现的

CRediT作者贡献声明

Benshuang Chen：写作 – 审稿与编辑，撰写原始草稿，软件，方法论，形式分析。Yuan Zhao：调查，形式分析，数据整理。Chenkang Du：数据整理。Xueli Liu：写作 – 审稿与编辑，可视化，方法论。Xinrong Chen：写作 – 审稿与编辑，项目管理，资金获取。