肺部磁共振成像(MRI)是一种有吸引力的无辐射功能评估模态,但由于其低信噪比和弱边界对比度,自动化分割仍然具有挑战性,这严重限制了可用于监督学习的可靠标注数据。相比之下,肺部计算机断层扫描(CT)提供了清晰的结构轮廓和丰富的标注。利用CT标签作为肺部MRI分割的间接监督是一种自然选择。然而,呼吸期差异和采集差异通常会引入残余的MRI-CT失配,使得即使经过配准,直接标签转移也不可靠。研究人员提出了一种用于MRI到CT翻译的失配感知扩散框架,该框架通过生成与MRI结构一致的合成CT(SynCT)并应用成熟的CT训练分割模型,实现了无标签肺部MRI分割,从而直接解决了标注瓶颈。该框架包含失配感知设计,例如反映CT和MRI物理特性的三通道多样性,以及处理呼吸运动和采集差异的弹性变形。它还引入了归一化互信息(Normalized Mutual Information, NMI)作为数值条件信号,用于传达跨模态配准的程度。在测试集上,所提出的方法在双肺分割中达到了82.38%的Dice系数和33.32 mm的第95百分位Hausdorff距离(HD95),与直接MRI输入(55.94%和147.59 mm)相比,表明分割更可靠且边界描绘得到改善。研究结果与直接CT输入的结果(81.11%和38.02 mm)相当。总体而言,这项工作为无标签肺部MRI分割提供了一条实用路径,并激励将失配感知条件引导作为跨模态医学图像翻译的一种原则性策略。
磁共振成像(Magnetic Resonance Imaging, MRI)已成为多种医学学科中不可或缺的工具,它提供了无辐射的评估,兼具解剖和功能信息。在肺部成像中,肺部MRI不仅显示出检测肺癌和肺栓塞等重大疾病的潜力,还能够评估呼吸力学和肺灌注。凭借这些能力,肺部MRI日益被视为一种不仅能进行结构评估,还能支持对肺部疾病进行定量理解的模态。在慢性阻塞性肺疾病、间质性肺病和哮喘等慢性肺部疾病中,肺部MRI具有特别重要的功能作用。这些疾病源于长期的肺损伤和适应性反应,导致高度复杂的疾病表现。因此,病理变化在肺内分布不均,导致显著的空间异质性。疾病进展、急性加重和心血管并发症引入了时间上的异质性变化,增加了空间和时间的复杂性。这种特性意味着仅依靠肺功能测试等全局性指标可能无法充分捕捉疾病行为。为克服这一限制,许多研究尝试利用计算机断层扫描(Computed Tomography, CT)来表征区域性肺异质性。然而,CT主要提供形态学和解剖学信息,限制了其直接评估通气和灌注等功能变化的能力。相比之下,肺部MRI在无辐射暴露的情况下,有望捕获区域性和时间性的功能信息。然而,实现这一潜力进行可靠的定量分析,关键依赖于准确且稳健的肺部切割作为前提。
基于CT的肺部切割通常更容易处理。CT具有强大的气-组织对比度,并得益于广泛的标注数据集和成熟的分割模型。CT衰减值(Hounsfield Units, HU)与组织密度呈线性关系,可以使用基于阈值或基于学习的方法稳健地将充气肺与周围结构分离。相反,MRI信号强度受多种采集依赖因素的非线性组合支配,即使在相同组织上,不同扫描之间也可能存在显著差异。这种可变性阻碍了组织特异性对比度假设的一致性。结合充气肺本身固有的低信号和弱边界对比度,肺部MRI分割的挑战要大得多。因此,构建可靠的肺部MRI标注仍然困难,大规模标注数据集稀缺,这给监督分割方法带来了主要瓶颈。
公开发布的胸部和肺部MRI资源确实存在,但其在成像范围和发布标签方面仍然有限且异质。一些公共资源提供肺部相关标签,而其他资源仅提供图像数据或用于不同任务的标注。因此,直接适用于临床全肺分割的、可公开重复使用的专家全肺MRI标注在实践中仍然有限。这一实际差距进一步凸显了减少对MRI标注依赖的方法的需求。
鉴于肺部MRI标注的有限性,利用CT监督成为一种有吸引力的替代方案,前提是配对的MRI-CT数据可用。然而,MRI和CT之间的残余失配仍然是一个关键障碍。MRI通常在自由呼吸条件下采集,而CT通常在屏气下获取,导致空间和形态差异无法通过标准配准完全校正。即使经过仿射配准,仍可能存在大量失配,无法可靠地进行直接标签转移,而非线性配准可能引入解剖变形,损害在呼吸运动幅度较大的器官中的标签可靠性。
为应对这些挑战,研究人员提出了一种用于无标签肺部MRI分割的、基于失配感知扩散的MRI到CT翻译框架。该方法从肺部MRI生成结构一致的合成CT(SynCT),使得成熟的CT训练分割模型无需MRI标注即可使用。为提高在残余跨模态差异下的鲁棒性,该框架整合了失配感知设计,并引入了归一化互信息(Normalized Mutual Information, NMI)作为数值条件信号,引导模型适应不同程度的跨模态失配。该方法的贡献如下:
1. 通过将CT训练的分割应用于翻译得到的合成CT图像,实现了无标签肺部MRI分割,解决了肺部MRI标注稀缺的瓶颈。
2. 引入基于NMI的数值条件引导,明确考虑了无法通过配准完全解决的残余MRI-CT失配,提高了在不完美对齐情况下跨模态翻译的鲁棒性。
3. 在相同的CT驱动分割流程下,该方法产生了更可靠的肺部分割,特别是在解剖结构复杂和边界模糊的区域,这得到了全面的消融分析和敏感性分析的支持。
**相关工作:MRI到CT翻译模型**
MRI到CT翻译作为一种缩小模态差异并使基于CT的分析工具能在MRI数据上运行的手段,已被广泛研究。先前将MRI到CT翻译应用于解决MRI标签稀缺的研究主要依赖生成对抗网络(Generative Adversarial Network, GAN)架构,如CycleGAN,其应用主要集中在局部区域(如肿瘤),这些区域的跨模态失配相对较小。这一区别对本研究很重要,因为全肺MRI到CT翻译需要在比先前聚焦于局部区域的研究大得多的解剖范围内实现结构一致的合成。基于扩散的生成模型,包括潜在扩散模型(Latent Diffusion Models, LDMs),因其相较于基于GAN的方法具有改进的训练稳定性和灵活的条件化能力,在医学图像合成领域获得了关注。这些特性在必须更明确地处理残余跨模态变异性的场景中尤为重要。尽管这些模型在各种合成任务中显示出了有希望的结果,但其在肺部MRI到CT翻译中的应用仍待探索。为了应对这些挑战,研究人员的前期研究引入了一种基于扩散的分割框架,该框架结合了三通道多样性和弹性变形策略,实现了使用CT派生标签进行肺部MRI分割。在该工作的基础上,本研究扩展了数据集,并引入了基于NMI的条件机制,使模型能够显式识别和适应跨模态失配。
**医学图像分析中的互信息**
互信息(Mutual Information, MI)是一种广泛使用的统计度量,用于量化两幅图像之间的依赖关系,并长期以来作为多模态配准的基本相似性度量。NMI通过标准化动态范围和直方图尺度的差异来扩展MI,在比较强度特性差异显著的模态时提供了更好的鲁棒性。因此,NMI已被广泛采用作为配准、特征对齐和跨模态一致性评估等多模态分析任务中的可靠相似性度量。这种鲁棒性也与MRI-CT分析相关,因为在该场景中,跨模态的直接强度对应可能不可靠。在此背景下,所提出的框架将NMI作为翻译模型的数值条件信号,而非配准度量。
**方法**
**预备知识**
本研究旨在通过从配对的肺部MRI-CT数据生成SynCT图像,在MRI上执行无标签肺部分割。每位患者
提供一个3D MRI-CT体积对,从中提取多个轴位切片。令
表示来自患者
的第
个MRI-CT切片对,其中
,
代表该患者可用的轴位切片数量。整个训练数据集定义为
。
所提出的框架包括两个主要阶段:翻译和分割。首先,一个失配感知的扩散翻译框架
从输入的MRI切片
生成SynCT图像
,即
。接下来,应用一个用CT标签训练的CT驱动分割模型
,对
进行预测,得到肺部掩膜
,即
。这里,
表示旨在考虑MRI和CT之间结构失配的扩散翻译模型,而
代表一个在CT数据上预训练的分割网络。这种设计允许将编码在CT标签中的知识间接迁移到MRI域,从而在不需要任何MRI标注的情况下实现肺部MRI分割。
**框架概述**
所提出框架的总体架构包括两个主要阶段:基于扩散的MRI到CT翻译和CT驱动分割。在翻译阶段,扩散模型
从输入的MRI生成SynCT图像。该阶段设计为对模态间的结构失配具有鲁棒性,整合了三个关键组件:(i) 三通道多样性,(ii) 弹性变形增强,以及(iii) 基于NMI的条件引导。通过这些机制,
生成的SynCT在保留MRI解剖细节的同时,反映了CT的结构对比度。在第二阶段,应用CT驱动分割模型预测肺部掩膜,通过转移CT派生的结构知识,在不需要MRI标注的情况下实现无标签肺部MRI分割。
**三通道多样性**
为适应翻译模型所需的三通道输入结构,研究人员设计了一种三通道输入配置,以反映MRI和CT的物理和对比特性。该配置为每种模态表示多层次的强度和结构信息,使翻译模型能够学习它们之间更精确的对应关系。
* **MRI配置**:第一通道对整个MRI体积进行3D归一化,以确保全局强度一致性。第二通道执行2D切片归一化,以捕获给定切片中的局部强度变化。第三通道从2D归一化图像生成Canny边缘图,以强调结构边界。为了抑制噪声并保留连续的解剖轮廓,研究人员通过形态学前景掩码细化了边缘提取,去除小型孤立分量并闭合不连续处,然后在Canny检测前进行高斯平滑。
* **CT配置**:CT强度值定义在Hounsfield单位(HU)中,范围从-1024到3071 HU。基于此,使用三种不同的窗位设置构建三个CT通道。第一个通道覆盖整个HU范围以捕获整体解剖结构,第二个使用以肺为中心的窗口[-1024, 350 HU]以平衡肺实质和周围组织,第三个采用更窄的窗口[-950, 350 HU]以增强肺实质和肺气肿区域内的精细结构。
* 最后,将MRI强度归一化到[0, 1],CT强度归一化到[-1, 1],与预训练翻译模型的输入一致。
**用于失配校正的弹性变形**
即使经过仿射配准,MRI和CT之间仍可能存在残余失配。为提高训练期间对此类失配的鲁棒性,研究人员引入了一种配对弹性变形策略,其中生成一个平滑的变形场,并相同地应用于每一对MRI-CT。通过在模态间强制执行相同的空间变换,两幅图像保持相对对齐,同时其全局解剖形状得到调整。变形场通过在粗控制点采样随机位移并将其插值为平滑连续的位移图生成。然后,该变形场被相同地应用于MRI和CT图像,产生变形对。最大位移幅度经验性地设置为10像素(相当于10 mm)。在每个训练周期生成一个新的随机变形场,以使模型暴露于多样化的结构变化。此策略减轻了残余的空间不一致性,提高了翻译的一致性和鲁棒性。
**基于NMI的条件引导**
传统的扩散模型通常由文本编码器引导,如对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP),使用文本提示来指定生成目标。相比之下,MRI到CT翻译是一个明确的单一任务,不需要语义指令。因此,研究人员引入了NMI作为数值条件引导信号,直接表示模态间的对齐程度。
NMI测量配对MRI和CT图像之间的统计依赖性,并作为结构对齐的定量指标。如图4所示,移除了扩散模型中常用的文本编码途径,模型直接以标量NMI作为条件。研究人员不是通过文本编码器或可学习的多层感知器(Multilayer Perceptrons, MLPs)将NMI投影到高维嵌入空间,而是修改了U-Net交叉注意力块中的键和值投影层以接受原始标量NMI。这种设计保留了NMI的数值意义,而没有引入可能扭曲其尺度或解释的额外转换层。因此,NMI幅度的变化直接告知模型失配程度,从而在翻译过程中实现结构校正的自适应控制。在训练期间,使用从配对MRI-CT切片计算出的实际NMI值作为条件输入。然而,在验证和推理期间(此时CT数据不可用),研究人员使用从训练NMI分布的高百分位范围导出的固定NMI值。因此,所提出的基于NMI的条件化实现了失配感知翻译,即使在没有CT数据的情况下也能保持泛化性能和结构一致性。
**目标函数**
模型训练遵循标准的扩散目标,最小化预测噪声与真实噪声之间的均方误差(Mean Squared Error, MSE)。给定一个MRI切片
及其对应的CT切片
,在扩散步长
将高斯噪声
添加到
以获得带噪声样本
。去噪网络
被训练为以
为条件预测注入的噪声。目标函数保留了原始的扩散学习公式,同时实现了从MRI到CT的条件翻译。在训练期间,模型检查点是根据生成的SynCT与相应
之间平均NMI最高的周期来选择的。
**基于CT驱动的合成CT肺部分割**
通过所提出的翻译阶段从MRI生成SynCT后,使用合成图像作为输入进行肺部分割。研究人员采用了nnU-Net,这是一个广泛使用且高度可适应的分割框架,以其在各种医学成像任务中强大的泛化性能而闻名。一个在真实CT图像和相应肺部标签上预训练的nnU-Net模型被直接应用于SynCT。所有权重保持冻结,不使用与MRI相关的数据进行额外的微调。在输入配置方面,CT分割模型遵循在训练期间针对肺结构分割优化的CT特定三通道多样性方案,确保了真实CT和SynCT一致的输入表示。最后,将从SynCT获得的分割结果与真实MRI标签进行定量评估,证明了基于CT的分割知识可以通过SynCT有效地转移到MRI,而无需手动MRI标注。
**实验**
**设置**
**数据集**:本研究使用了在三星医疗中心收集的内部配对肺部MRI-CT数据集。该研究获得了三星医疗中心机构审查委员会的批准(2021-09-089),所有数据的处理均符合机构隐私和数据保护政策。研究人员回顾性筛选了2019年12月至2024年11月期间因各种临床指征接受肺部MRI检查的患者,并纳入了也接受了肺部CT检查的患者以构建配对的MRI-CT数据。具体而言,当CT在MRI检查后约3个月内进行时,定义为MRI-CT对。该数据集包含来自99名患者的133对MRI-CT扫描,包括98对基线扫描和35对随访扫描。所有扫描均用于临床诊断或随访目的。尽管每个MRI-CT对都由三维体积扫描组成,但考虑到计算需求和数据规模有限,使用从这些体积中提取的二维轴位切片进行训练。
数据集包含从配对肺部MRI-CT扫描中导出的10,783个轴位切片,包括7955个基线切片和2828个随访切片。采用患者级分割来构建训练集、验证集和测试集(55/27/17名患者),分别对应71/35/27对3D MRI-CT扫描,以防止子集间信息泄露。在切片层面,分割包括5537个训练切片、2605个验证切片和2641个测试切片,保持约6:2:2的比例。来自同一患者不同时间点的随访扫描被视为独立样本。基线和随访MRI扫描之间的平均间隔为424.859 ± 67.749天,表明随访MRI扫描在时间上是不同的采集。然而,患者级分割确保了同一受试者的扫描不会分布在不同的子集中。
所有CT扫描都有肺部分割标签,而MRI标签仅在测试集中的27对扫描中提供。重要的是,训练期间未使用任何MRI注释,确保了MRI领域的完全无标签设置。测试集的肺部MRI标注由一名具有5年经验的初级放射科医师手动勾画,随后由一名具有18年经验的高级认证放射科医师审核并最终确定,以确保标注质量。在存在不确定性或分歧的情况下,最终标注由高级放射科医师确定。
**预处理**:CT图像使用ANTs配准到相应的MRI空间,两种模态都被重采样到1 × 1 × 1 mm
3各向同性体素。然后执行前景裁剪以居中解剖相关区域,随后进行保持宽高比的填充至416 × 416并调整大小至512 × 512。使用体积级归一化、切片级归一化和边缘图构建三通道MRI输入,最终MRI强度归一化到[0,1]。CT目标通道使用三个HU窗口构建,最终CT强度归一化到[-1,1]。为生成冠状位可视化,将切片级预测堆叠以重建3D体积,然后在冠状面重切。
**实现细节**:扩散模型使用带有ControlNet的Stable Diffusion 2.1实现,在单个NVIDIA L40S GPU(48 GB)上训练。使用4的批量大小和1 × 10
-4的学习率进行优化。弹性变形仅在训练期间作为失配感知增强策略的一部分应用。对于条件引导,在验证和推理期间使用固定NMI值,因为在无标签设置中CT扫描不可用。具体而言,研究人员采用了对应于训练NMI分布上限的值(99%分位数,为0.1426)。这确保了生成过程中的稳定和一致行为。当不使用NMI引导(例如,在基线或比较设置中)时,提示被固定为以下文本描述:“Professional high-quality translation from lung MRI-to-CT. Magnetic Resonance Imaging to Computed Tomography, Medical Imaging, extremely high detail, Clean Background.”。对于基于文本的NMI引导,考虑了两种提示公式。在“文本(仅值)”中,标量NMI值作为独立的文本令牌提供。在“文本(描述)”中,相同的NMI值被嵌入一个固定的描述性句子中,明确说明MRI-CT对齐程度和翻译目标(即合成与输入MRI对应的CT图像)。在所有基于文本的引导设置中,使用了ControlNet提供的默认CLIP文本编码器,未作修改。
**比较方法**:为评估MRI-CT翻译对下游肺部MRI分割的影响,研究人员比较了几种在跨模态医学图像合成中广泛使用的骨干模型。经典的基于GAN的模型,如pix2pix和CycleGAN被包括在内,因为它们在先前的MRI到CT翻译研究中经常被采用。研究人员进一步包括了RegGAN,这是一种配准引导的基于GAN的翻译模型,旨在处理失配的训练目标并提高合成过程中的结构一致性,作为一个更强的GAN基线。研究人员还考虑了潜在扩散模型,它们在最近的医学图像合成研究中变得突出。LDM-Uncond反映了没有任何条件(除MRI输入外)的扩散模型的生成能力,而LDM-Text则结合了固定的文本提示来调制翻译过程。研究人员进一步评估了ControlNet,这是一种结构感知的扩散骨干,能够更灵活地集成外部条件信号。最后,还包括了对原始MRI(未经翻译)的分割性能,以量化SynCT对分割精度的直接贡献。这些比较模型建立了一套全面的基线,用于分析不同的翻译策略如何影响肺部MRI分割。
**评估指标**:肺部分割性能使用Dice相似系数(Dice)和第95百分位Hausdorff距离(HD95)进行评估。Dice系数以百分比(%)报告,量化体积重叠,提供分割精度的全局度量。相比之下,HD95通过测量预测掩膜和参考掩膜之间表面距离的第95百分位数来评估基于边界的差异。此指标与肺部MRI特别相关,因为弱信号、不规则轮廓和模态不匹配可能导致细微的边界偏差,这些偏差无法完全由Dice反映。因此,HD95在此任务中作为解剖保真度的更敏感指标。所有定量分割结果均以切片级平均值 ± 标准误差(SE)表示。此外,使用多尺度结构相似性(MS-SSIM)、Fréchet Inception距离(FID)、学习感知图像块相似性(LPIPS)和视觉信息保真度(VIF)对SynCT翻译质量进行定量评估。统计显著性通过预先指定的成对比较进行评估。使用双侧配对Wilcoxon符号秩检验进行比较。
**骨干网络比较**:表1比较了在不使用任何附加技术(如三通道多样性、弹性变形或NMI条件化)的情况下评估的MRI到CT翻译骨干网络。基于GAN的模型(pix2pix, CycleGAN, RegGAN)表现出有限的性能,与扩散模型相比表现出更大的边界误差和更高的SE。虽然CycleGAN在左肺获得了最高的Dice,但其HD95值仍然很高,表明尽管体积重叠合理,但它在准确重建物体边界方面存在困难。RegGAN提供了一个更强的GAN基线,其HD95优于pix2pix,并且在多个设置中显示出比CycleGAN更具竞争力的边界精度,但总体上仍不如基于扩散的模型可靠。基于扩散的模型总体上表现出更可靠的性能。LDM-Uncond尽管不使用任何条件,但在Dice和HD95之间提供了良好的平衡。然而,LDM-Text与LDM-Uncond相比改善了右肺的边界定义,但在左肺表现出显著的退化。左右肺之间的这种显著差异表明其对解剖变异性的鲁棒性降低。在所有评估的骨干网络中,ControlNet在双肺中实现了最稳定的性能,将有竞争力的Dice分数与持续较低的HD95值结合在一起。虽然它没有给出最高的Dice,但差异很小,其整体稳定性使其成为比其他扩散模型更可靠的选择。这些定量趋势得到了图5中定性比较的支持。在轴位视图中,ControlNet产生更清晰的边界描绘,在胸膜界面处的局部错误较少,而几个替代骨干显示出更频繁的边界泄漏。冠状视图进一步突出了沿顶到基底范围内的体积一致性差异:竞争骨干倾向于在肺尖和基底区域产生更大的错误,而ControlNet则保持更连贯的轮廓,减少了假阳性和假阴性。这些观察结果支持了ControlNet骨干在保持跨平面边界和跨平面一致性的解剖学上合理的肺几何形状方面的鲁棒性。
**消融研究**:表2报告了将CT驱动的nnU-Net应用于不同输入配置时获得的分割性能,包括MRI、CT以及通过消融研究生成的五种SynCT变体。使用“直接MRI”作为输入导致性能最差,特别是HD95,突显了由于低对比度和模态不匹配,直接将CT训练的模型应用于MRI时准确边界描绘的困难。相比之下,“直接CT”在实践中仍然有限,因为残余失配可能引入显著的边界错误。引入SynCT作为中间表示与直接MRI输入相比显著提高了分割性能,表明MRI到CT翻译有效地弥合了CT驱动分割的模态差距。在SynCT变体中,添加三通道多样性在Dice上产生了适度的改善,表明翻译期间丰富的多尺度强度表示有助于分割模型更好地捕获肺部结构。弹性变形在双肺中提供了一致的增益,HD95明显降低。改善在右肺尤其显著,因为部分体积效应导致的肝脏穹窿附近的MRI-CT失配通常更明显,使肺部MRI的边界描绘复杂化。将两者结合导致进一步的改进,改善了Dice和HD95,证明了强度多样性和空间增强的互补效应。包括所有组件(包括基于NMI的数值引导)在内的完整模型实现了最佳的总体性能。它在双肺中产生了最低的HD95值和最高或接近最高的Dice分数,反映了翻译过程中结构一致性的提高以及对不同程度跨模态失配的更好适应性。与所提出方法的成对比较显示,直接MRI、直接CT和大多数消融变体在多个指标上存在统计学显著差异,支持了结合三通道多样性、弹性变形和基于NMI的数值引导的优势。表3呈现了SynCT变体的补充翻译指标,使用MS-SSIM、FID、LPIPS和VIF进行评估。在这些指标中,FID作为翻译质量的主要分布级度量,反映了生成的SynCT分布与目标CT分布的匹配程度。所提出的模型实现了最低的FID,表明在所有变体中具有最佳的整体分布对齐。虽然绝对MS-SSIM值由于残余的切片级失配和MRI-CT对的非体素对齐性质而保持适中,但结果一致表明,所提出的每个组件都有助于增强SynCT的结构合理性和感知连贯性。此外,所提出的模型在MS-SSIM、LPIPS和VIF上显示出最有利的整体指标轮廓,在大多数比较中具有统计支持的改进。
**NMI敏感性分析**:表4总结了在SynCT生成期间变化NMI引导时获得的分割性能。总体而言,Dice和HD95相对于NMI百分位数显示出清晰且单调的趋势:分割精度通常随着引导值的增加而提高,最有利的结果出现在训练分布的上限附近。对于Dice,随着NMI的增加,左肺、右肺和双肺的所有区域都观察到逐步的增益,在99%-100%百分位数记录到最高值。HD95也反映出类似的模式,其中边界精度随着更高的NMI引导而稳步改善。特别是第99百分位数产生了最低的HD95和有竞争力的Dice分数,表明与强跨模态对应的引导值最有利于稳定和准确的分割。尽管第100百分位数也表现出强劲的性能,但与第99百分位数相比,其改善幅度较小,表明在NMI范围的极端端点没有带来有意义的额外收益。这些发现共同表明,SynCT生成最受益于从训练分布的上尾抽取的NMI值,而过大的引导值不会提供进一步的可衡量收益。因此,适当校准的NMI引导在增强翻译一致性以及进而提升下游分割质量方面发挥着重要作用。与第99百分位数设置相比,较低的NMI引导水平在大多数指标上显示出统计学显著的退化,而第95和第100百分位数设置则产生了更相当的性能。
**文本驱动与数值NMI条件化比较**:表5比较了用于肺部MRI分割的不同NMI引导公式。当NMI通过文本提示提供时——无论是作为独立的标量值(文本,仅值)还是嵌入描述性句子中(文本,已描述)——描述性变体表现出略好的性能,但两种基于文本的公式始终不如所提出的数值条件化。相反,直接以标量信号条件化扩散模型(数值,所提出)在所有区域实现了最佳结果,在左肺、右肺和整体分割中产生了更高的Dice分数和更低的HD95。这些发现表明,将NMI作为标量条件注入比通过文本提示路由它提供了更有效的方式来反映生成过程中的对齐信息,从而提高了下游分割的边界精度。与所提出的数值引导相比,两种基于文本的引导公式在大多数指标上显示出统计学显著的退化,支持了直接数值条件化的优势。
**讨论**
研究人员的发现表明,明确考虑残余的MRI-CT失配可以提高CT监督的肺部MRI分割在难以获得可靠MRI标注的场景中的实用性。虽然模态翻译已在医学影像中被探索,但用于全肺分割的肺部MRI到CT翻译仍然相对有限。在此背景下,本研究的主要意义不仅在于可以从肺部MRI生成合成CT,更在于将对齐感知整合到生成过程中可以产生结构上更可靠的合成CT,进而更好地支持不需要MRI标签的CT训练分割。从临床角度来看,这种无标签框架可能促进在无法轻易获得可靠MRI标注的环境中进行基于MRI的肺部结构定量评估。这种能力对于基于MRI的肺部结构变化评估以及在需要重复成像的患者群体中进行纵向随访(此时MRI的无辐射特性具有优势)可能很有用。此外,减少对专家MRI标注的依赖可能有助于降低在研究和未来临床工作流程中开发和应用肺部MRI分割方法的实际负担。
尽管结果有希望,但仍存在一些局限性。首先,当前的实现基于2D扩散公式。这种设计选择反映了实际限制,包括可用的配对肺部MRI-CT数据集规模有限,以及训练大规模3D扩散模型所涉及的大量计算和内存需求。在此情况下,体积生成模型更容易出现训练不稳定和过拟合。因此,本研究侧重于在稳定的2D设置内验证失配感知条件生成的核心概念。其次,由于适合的配对肺部MRI-CT数据集以及可公开获取的、直接适用于本全肺分割设置的专家标注基准仍然有限,因此无法进行更广泛的外部评估。这一实际限制进一步凸显了减少对MRI标注依赖的方法的需求。当合适的专家标注肺部MRI数据集公开可用或可实际获取时,未来工作将包括在这些队列上的外部验证。随着更大的配对MRI-CT数据集可用和计算资源的改进,将该框架扩展到3D或混合扩散架构将是未来工作的自然方向。第三,定性检查强调了一小部分极具挑战性的病例,其中肺部边界由于靠近肝脏穹窿的残余跨模态不匹配(由于部分体积效应)或在MRI上肺尖和基底区域难以描绘,导致分割稳定性降低。这些例子主要反映了肺部MRI固有的成像限制——呼吸期差异和支持信号有限可能掩盖真实边界——而非所提出框架的系统性缺陷。然而,增强在此类极端条件下的鲁棒性仍然是未来工作的重要途径。本研究不包括与基于MRI的肺部分割模型或大规模医学分割框架的直接比较。这些方法假设使用MRI标注进行监督训练或依赖于在正常或接近正常解剖分布占主导的多器官数据集上进行预训练。因此,由于标注可用性和数据代表性,它们无法应用于本案例。相比之下,本研究的目标是通过利用CT监督提供一条不需要MRI标签的训练路径。在这种无标签表述下,在匹配条件下与使用MRI标注训练的方法进行直接比较本身是不可行或不公平的。
**结论**
本研究提出了一种基于失配感知扩散的MRI到CT翻译框架,可在不需要MRI标注的情况下实现肺部MRI分割。通过在生成过程中明确建模MRI-CT失配,所提出的方法生成了结构一致的合成CT图像,这些图像可以被CT训练的分割模型有效利用。实验结果表明,整合对齐感知生成在肺部MRI分割中带来了切实的性能提升,超越了仅通过传统模态翻译所能实现的效果。重要的是,这项工作为难以获得可靠MRI标注的场景中的无标签肺部MRI分割提供了一种实用的解决方案。所提出框架专门针对肺部MRI分割设计和验证,解决了一个临床相关且具有挑战性的问题。此外,本研究中引入的对齐感知生成建模概念有可能扩展到其他面临类似标签稀缺性和模态不匹配问题的跨模态医学成像任务,为未来的无标签医学图像分析奠定基础。