胎儿心脏超声(FCU)是产前筛查和诊断先天性心脏缺陷的标准成像方式,这是全球范围内最常见且最具生命威胁的先天性异常之一[1]。FCU能够实时、无创地可视化胎儿心脏的解剖结构和功能。然而,准确的解读依赖于对多个标准平面的协调分析,包括四腔心、流出道和三血管气管视图。这一任务由于固有的解剖变异性和对熟练超声技师专业知识的强烈依赖而变得相当复杂。
医学人工智能(AI)的最新进展在心脏超声解读方面显示出巨大潜力,包括心脏运动分析[2]、异常检测[3]和功能评估[4]。这些模型可以显著提高诊断效率和精度,特别是对于初级护理环境中的经验不足的临床医生[3]。然而,传统的AI模型严重依赖大规模、专家标注的数据集来实现准确性和泛化能力,而这些数据集的获取既耗时又费力。同时,这些模型通常是为单一任务设计的,这限制了它们在临床实践中的可扩展性和适应性。
大型语言模型(LLMs)和多模态视觉-语言模型(VLMs)的学习为构建通用诊断模型提供了有希望的方向,这些模型在最小监督下进行训练。医学视觉-语言预训练模型(MedVLMs)通过将医学图像与自由文本诊断报告对齐来学习视觉-语义表示,这些报告作为自然的监督[5],[6]。这些模型在多个领域表现出色,如胸部X光[7],[8]、组织病理学[9]和视网膜成像[10]。然而,多模态技术在FCU中的应用仍然很大程度上未被探索。这一空白促使我们开发了一个专门用于FCU的MedVLM,因为它有潜力弥合主观视觉解读与标准化临床报告之间的语义差距。通过利用常规诊断报告,这样的VLM可以避免繁琐的像素级注释,同时本质上捕捉到人类专家如何整合多视图发现的丰富复杂推理过程。
尽管医学视觉-语言模型取得了快速进展,但由于领域特定的障碍,开发有效的FCU MedVLM仍然具有挑战性。首先,缺乏专门为FCU定制的大规模预训练数据集。这源于获取足够胎儿心脏异常数据的难度、检查过程中解剖视图获取的不一致性以及高度异构的诊断报告[6]。其次,准确的FCU解读本质上需要整合多个标准化视图中的诊断线索[11],而当前基于单平面分析或全局对齐的模型在这方面能力不足。第三,胎儿心脏报告通常描述特定视图中的局部异常,需要在视图特定的图像区域和文本描述之间进行细粒度对齐。因此,本研究解决了当前单图像VLM架构与临床对多视图上下文推理和细粒度文本对齐需求之间的根本语义差距[8],[12]。
为了解决上述挑战,我们提出了一个专为FCU设计的领域特定视觉-语言框架。我们首先收集了一个包含5495条胎儿心脏超声记录的大型真实世界数据集,每条记录包含多个2D视图和自由文本诊断报告。为了支持视觉-语言学习,我们开发了一个由LLM引导的流程,该流程识别每个案例的五个标准视图,并将自由文本报告转换为结构化的、基于模板的描述,从而生成高质量的多模态训练数据集。
然后,设计了一个视觉-语言基础模型FCUFormer,用于多视图超声理解和报告生成(图1b)。FCUFormer将多视图超声图像与结构化的临床描述对齐,捕捉解剖背景和诊断语义。该模型引入了两个关键创新:一个是多视图信息多实例学习(MV-MIL)模块,用于建模跨视图的解剖依赖性;另一个是多级视觉-语言对齐(ML-VLA)模块,用于促进不同图像区域与临床描述之间的细粒度语义对应。最后,FCUFormer基于FetalCLIP[13]进行初始化,FetalCLIP是一个在最大公开可用胎儿超声数据集上预训练的编码器。通过对我们的标准化FCU数据集进行微调,模型学习了临床相关的视觉-语义表示。预训练后,FCUFormer可以应用于多种下游任务,包括心脏结构分类、异常检测和自动报告生成,而无需额外的手动注释。
实验结果表明,FCUFormer在结构化报告生成和标准视图分类方面达到了最先进的性能,并且在没有任务特定微调的情况下也展示了零样本异常分类能力。它准确估计了11个关键诊断指标(例如,主动脉覆盖、室间隔缺损、肺动脉狭窄),平均准确率为87.37%,突显了其在实际临床工作流程中的强大泛化能力和转化潜力。本工作的贡献总结如下:
- 1.
构建了第一个大规模的、基于LLM标准化的胎儿心脏超声预训练数据集,整合了结构化报告和多视图解剖图像,这是该领域的开创性工作。
- 2.
提出了第一个专为胎儿心脏超声设计的视觉-语言基础模型FCUFormer,无需大规模细粒度手动标签即可实现跨任务的强泛化能力。
- 3.
引入了两个新模块:一个是多视图信息多实例学习(MV-MIL)模块,用于建模跨视图解剖依赖性;另一个是多级视觉-语言对齐(ML-VLA)模块,用于促进不同图像区域与临床描述之间的细粒度语义对应。
- 4.
所提出的模型在结构化报告生成和零样本胎儿异常诊断的临床基准测试中达到了最先进的性能。