结合注意力机制的多模态深度学习用于下肢深静脉血栓的自动检测：整合超声、CT和MRI技术

时间：2026年2月13日

来源：Biomedical Signal Processing and Control

编辑推荐：

DVT多模态影像分割与分子机制整合研究提出两阶段级联分割框架SE/CBAM，融合CT/MRI/超声数据并采用注意力机制，在322例DVT患者中Dice系数达0.873±0.018，显著优于nnU-Net/Swin-UNet等基线模型。结合转录组（GEO, n=40）、蛋白质组（PRIDE, n=30）和代谢组（MetaboLights, n=20）数据，识别出RPS3A/RPL31/TP53关键分子及氧化型谷胱甘肽等差异代谢物，富集于谷胱甘肽代谢、三羧酸循环及炎症通路（如IL-17/TNF轴），与影像模型高风险区域形成生物学呼应。

王浩杰|景园虎|李宏远|张妍|常聪聪|史功宁

河南大学淮河医院心血管外科，开封475000，中国

摘要

本研究开发了一种具有集成注意力机制的两阶段级联分割框架（SE/CBAM），该框架能够处理来自CT、MRI和超声的多模态输入，并显示出对缺失模态的鲁棒性。所提出的方法在322例深静脉血栓形成（DVT）的数据上进行了系统评估，并与代表性方法（包括nnU-Net、Swin-UNet、UNETR和MedSAM/EMedSAM）进行了比较。在标准预处理和五折交叉验证下，我们的模型在独立测试集上获得了0.873 ± 0.018的Dice系数、0.783 ± 0.021的IoU、0.921的PR-AUC和0.942的ROC-AUC，显著优于nnU-Net、Swin-UNet、UNETR和MedSAM/EMedSAM基线。Grad-CAM热图显示，在关键解剖区域与专家注释有很强的空间一致性。敏感性分析证实了对超参数变化、噪声和单模态缺失的鲁棒性（<1%的波动）。为了提高生物学可解释性，我们整合了转录组（GEO，n = 40）、蛋白质组（PRIDE，n = 30）和代谢组（MetaboLights，n = 20）数据集，识别出关键分子如RPS3A、RPL31和TP53，以及差异代谢物包括氧化型谷胱甘肽、琥珀酸和甜菜碱。这些分子变化主要富集在谷胱甘肽代谢、三羧酸（TCA）循环和炎症相关通路（例如IL-17和TNF信号轴）中。值得注意的是，这些通路与成像模型强调的高风险血栓形成解剖区域的炎症激活和氧化应激特征方向一致，从而为基于成像的识别结果提供了支持性的机制解释。总体而言，本研究为DVT的可解释AI驱动诊断和精准干预建立了方法论基础，并展示了扩展到其他血管疾病的潜力。

引言

下肢深静脉血栓形成（DVT）是静脉系统中最常见且威胁生命的血栓性疾病之一。该病会扰乱局部静脉循环，可能导致肺栓塞（PE），这是全球住院患者突发和意外死亡的主要原因[1]、[2]、[3]。流行病学证据表明，DVT的年发病率约为每1000人中有1例，尤其是在术后患者、癌症患者、老年人和长期卧床者中更为常见[4]。因此，早期诊断和及时干预对于减少严重并发症、降低死亡率和提高生活质量至关重要。然而，早期DVT通常没有明显症状，这增加了临床识别的复杂性并延迟了治疗。这一日益增长的临床挑战突显了需要更准确和智能的诊断方法，以便在早期识别DVT。

目前DVT的临床诊断主要依赖于医学成像技术，包括压缩超声（CUS）、计算机断层扫描（CT）、静脉造影（CTV）和磁共振静脉造影（MRV）[5]、[6]、[7]、[8]。尽管这些方法具有合理的灵敏度和特异性，但其诊断准确性仍受操作者经验的影响较大，可能导致由于主观解释而出现误诊或遗漏。当血栓较小、形态不典型或处于形成早期阶段时，诊断挑战更加明显[5]、[9]。此外，单模态成像难以全面捕捉血栓、周围组织和血流动态之间的复杂关系（图S1）。因此，整合多模态成像信息已成为提高诊断准确性、可重复性和血栓检测自动化的一种有前景的策略。

人工智能（AI）的快速发展，特别是深度学习，极大地推动了医学图像分析的进步。卷积神经网络（CNN）在肺结节检测、乳腺肿瘤分类和视网膜病变识别等任务中取得了显著成功[10]。近年来，多模态深度学习融合模型在捕捉不同成像模态的互补特征方面表现出强大的能力，从而提高了识别准确性和临床可解释性。鉴于DVT的多因素和常常隐蔽的性质，构建一个整合超声、CT和磁共振成像（MRI）数据的深度学习模型可能实现更精确的病变定位和风险评估，最终提高诊断效率并支持临床决策。

同时，血栓形成不仅仅是一个解剖学异常，而是一个涉及凝血功能、血液动力学和血管内皮状态的复杂病理过程[11]。多组学技术的进步揭示了DVT的发展是由多种分子机制驱动的，包括炎症反应、内皮损伤和纤维溶解系统的失调[12]、[13]、[14]、[15]、[16]。因此，仅依赖成像信息虽然有助于病变识别，但不足以全面理解DVT的发病机制。整合转录组学、蛋白质组学和代谢组学数据可以通过阐明其潜在的分子和病理背景来补充成像表型，从而有助于识别关键信号通路和潜在的治疗靶点。特别是，在基于AI的模型的帮助下，将表型驱动的成像特征与相应的分子异常联系起来，有望提高成像分析的生物学可解释性和研究深度。

以往基于AI的DVT和静脉血栓栓塞成像研究证明了自动检测的可行性；然而，它们通常存在四个主要限制：（1）大多数方法依赖于单一成像模态，通常是超声或单一CT/MR序列，这限制了利用互补结构和对比信息的能力；（2）主流的单阶段模型往往无法准确识别小或低对比度的血栓；改进全局Dice系数通常以牺牲边界精度为代价；（3）临床可解释性仍然有限，因为注意力热图或Grad-CAM可视化缺乏标准化的评估标准和定量感兴趣区域（ROI）分析，而放射科医生与AI的一致性数据很少；（4）成像算法与分子机制研究相对脱节，大多数分析仅限于表型识别，而不是基于疾病相关生物过程的综合解释。本研究通过四个关键策略解决了这些差距：（1）结合超声、CT和MRI数据的多模态特征融合，以捕捉互补的结构和对比信息；（2）采用两阶段粗到细的分割框架，结合通道和空间注意力机制，以提高对小或不明显血栓的召回率和精度；（3）建立一个标准化的可解释性系统，定量评估梯度加权类激活映射（Grad-CAM）激活与专家注释的血管ROI之间的重叠，建立放射科医生与AI之间的一致性基准；（4）整合转录组学、蛋白质组学和代谢组学分析，为模型强调的成像表型提供机制支持和生物学背景。

值得注意的是，尽管深度学习和多组学分析在一系列疾病研究中取得了初步进展，但仍然缺乏一个系统化的框架，能够同时整合多模态成像识别性能和机制解释，而DVT是一种具有高度时间动态性和复杂空间结构的疾病[5]、[17]。一方面，现有研究大多局限于单模态成像或静态分析，稳定的多阶段分割和识别流程尚未建立。另一方面，模型可解释性不足和生物学相关性较弱，限制了这些方法在临床决策中的可信度和转化应用[18]、[19]（图S2）。因此，开发一个能够处理多模态成像输入的高性能多阶段深度学习模型，并结合基于多组学的机制验证，对于推进智能DVT诊断的可靠性和临床实用性至关重要。

本研究旨在使用来自公共数据库的高质量多模态成像数据，开发一个用于自动识别和定量评估下肢DVT的多阶段深度学习模型。该模型整合了从超声、CT和MRI提取的特征，并结合了注意力机制和迁移学习策略，以提高检测小或早期血栓的灵敏度。同时，利用GEO和癌症基因组图谱（TCGA）等存储库中的多组学数据进行差异表达分析、通路富集分析和蛋白质-蛋白质相互作用（PPI）网络构建，从而为成像模型突出的疾病表型提供分子水平的机制背景和生物学支持。在提高基于AI的DVT成像识别性能的同时，本研究旨在建立一个综合研究框架，使成像分析和基于多组学的机制解释相互补充，为血栓性疾病的多模态诊断和精准医学研究提供方法论见解和潜在的转化价值。

研究主题和样本收集

研究中使用的医学成像数据来自公开可访问的数据库，主要是斯坦福大学发布的Stanford DeepVein Ultrasound Dataset。该数据集包含大量临床注释的下肢静脉超声图像，涵盖了多个静脉解剖区域和典型的DVT表现。还结合了MIMIC-IV和eICU合作研究数据库的诊断信息，以协助病例标记和分组。

多模态成像样本的分布和质量控制

共纳入了322例被诊断为下肢DVT的患者，涵盖了三种主要的成像模态：CT（102例，31.7%）、MRI（110例，34.2%）和超声（110例，34.2%）。每位患者仅贡献了一次诊断时获取的成像研究，以防止因重复条目导致的采样偏差。成像模态的分布相对平衡（图1A），为后续的模态整合和建模提供了均匀的基础。

所有