开发并验证了一种深度学习模型,该模型利用腹部多参数磁共振成像(MRI)数据,在多个部位和不同设备供应商提供的数据集上实现对肝脏剪切硬度的预测

时间:2026年5月15日
来源:European Radiology

编辑推荐:

摘要 目的 测量肝脏硬度对于评估慢性肝病(CLD)非常重要。磁共振弹性成像(MRE)需要专门的硬件和专业知识。使用多参数腹部MRI的非侵入性深度学习(DL)模型可能提供一种可行的替代方法。我们致力于开发并验证一种DL模型,该模型能够根据非对比度多参数腹部MRI和电子健康记

广告
   X   

摘要
目的
测量肝脏硬度对于评估慢性肝病(CLD)非常重要。磁共振弹性成像(MRE)需要专门的硬件和专业知识。使用多参数腹部MRI的非侵入性深度学习(DL)模型可能提供一种可行的替代方法。我们致力于开发并验证一种DL模型,该模型能够根据非对比度多参数腹部MRI和电子健康记录(EHR)数据预测连续的肝脏剪切硬度,适用于多个机构和供应商。

材料与方法
这是一项回顾性、多机构的研究。我们分析了3376名确诊或疑似CLD患者的3680次腹部MRI检查结果。输入数据包括非对比度T1加权(T1w)、T2加权(T2w)和扩散加权成像(DWI)图像以及EHR数据。MRE测得的肝脏剪切硬度作为参考值。我们使用基于Transformer的多通道DL模型进行了10折交叉验证,并在内部测试集(n=1224)和独立的外部测试集(n=365)上进行了评估。性能通过皮尔逊相关系数(r)来衡量;残差分析用于评估偏差。

结果
在交叉验证中,模型的r值为0.78(95%置信区间:0.75, 0.80)。在内部测试集上,r值为0.77(95%置信区间:0.73, 0.80);在外部测试集上,r值为0.76(95%置信区间:0.69, 0.83)。该模型在年龄、性别或BMI方面没有显示出显著偏差(p>0.05)。在有或没有脂肪性肝病的患者中,r值分别为0.74和0.76。

结论
我们基于Transformer的多通道模型能够根据常规获取的多参数MRI和EHR数据预测连续的肝脏剪切硬度,并与MRE的结果具有中等程度的相关性,这代表了向可访问、非侵入性肝脏硬度评估迈出的潜在一步。

关键点
问题:常规获取的多参数腹部MRI和电子健康记录数据是否可以使用深度学习方法在多个机构和扫描仪供应商之间预测肝脏硬度?
发现:优化后的深度学习模型在交叉验证中的预测r值为0.78,在外部验证中的预测r值为0.76。

临床意义
本研究介绍了一种初步但稳健的AI方法,可以利用常规的多参数MRI和EHR数据来估计肝脏硬度,提供了一种可扩展的纤维化评估方法,适用于机会性评估,并在MRE不可用时作为补充工具。

图形摘要
该图像的替代文本可能是使用AI生成的。E 从MRI数据中生成了肝脏和脾脏的分段掩膜,以用于后续分析。F 一个多通道深度学习框架结合了成像通道和电子健康记录(EHR)数据,使用基于变压器的模型和深度神经网络模型进行特征提取,随后进行特征融合和回归以预测肝脏剪切硬度。模型性能使用基于相关性和基于误差的指标进行评估,包括决定系数(R2)、皮尔逊相关系数(r)、平均绝对误差(MSE)和均方根误差(MAE)。G 使用来自站点1、2和3的数据进行了内部多站点10折交叉验证以开发模型。H 在来自站点1、2和3的时间保留数据集上进行了内部测试。I 使用来自站点4的独立保留数据集进行了外部验证。J 通过比较有无脂肪肝疾病的患者来评估肝脂肪变性对模型性能的影响,脂肪肝疾病包括非酒精性脂肪性肝炎和非酒精性脂肪肝病,其定义是质子密度脂肪分数(PDFF)为6%或更高。K 进行了误差分析,以识别模型限制、偏差来源以及与预测误差相关的因素。

多通道深度学习模型
图像分割和预处理在补充方法S.2.1中有描述。模型架构和优化细节在补充方法S.2.2中有说明。

模型验证策略
来自四个站点的参与者被分为三个不重叠的数据集:一个包含2091个MRI扫描的训练集,来自CCHMC、NYU和UW(2011-2020年);一个时间保留的内部测试集,包含1224个扫描,来自相同的站点(2021-2022年);以及一个包含365个扫描的独立外部测试集,来自UM(2011-2020年)。多通道模型在训练集上使用10折交叉验证进行开发和优化,每个折叠包含80%的训练数据、10%的验证数据和10%的测试数据。然后在内部测试集上评估最终模型以模拟前瞻性性能,并在留一法设计的外部测试集上评估其对新机构数据的泛化能力。

肝脂肪变性
我们评估了有无SLD(脂肪肝疾病)的患者的DL(深度学习)模型的性能。先前的研究表明,肝脏脂肪可以影响肝脏剪切硬度的测量[32, 33]。在这项当前的研究中,我们将SLD的存在(即MASLD/MASH)定义为MRI质子密度脂肪分数(PDFF)≥6% [34],或在EHR中记录的MASLD或MASH诊断。我们的数据集被分为两个子集:有SLD的患者(n=2118个MRI检查)和没有SLD的个体(n=1562个MRI检查)。每个组分别使用多站点10折CV(交叉验证)进行训练和测试。

统计分析
模型性能使用均方根误差(RMSE)、平均绝对误差(MAE)、皮尔逊相关系数(r)和决定系数(R2)进行评估,每个指标都带有95%的置信区间。p值<0.05被认为在推断测试中具有统计学意义。分析使用MATLAB 2018a(MathWorks)的统计软件包进行。我们进行了描述性分析,报告了连续变量的平均值(标准差)以及分类变量的计数和百分比。使用双侧学生t检验(连续数据)和卡方检验(分类数据)来比较各组之间的基线差异和模型性能。此外,通过使用方差分析(ANOVA)计算p值来评估由于患者人口统计学和表型引起的偏差。考虑了四个变量,每个变量分为多个类别,以评估预测的肝脏硬度值中的偏差:真实平均硬度(1.0–2.5 kPa、2.5–3.0 kPa、3.0–3.5 kPa、3.5–4.0 kPa、4.0–5.0 kPa、5.0–30.0 kPa)、BMI(18.5–25.0、25.0–30.0、30.0–50.0)、年龄(1–18岁、18–45岁、45–80岁)和性别(男性、女性)。计算了每个变量内每个类别的残差(测量的肝脏剪切硬度与预测硬度的差异),并确定p值以评估类别之间的差异是否具有统计学意义。p值大于0.05表示没有可检测到的偏差,而p值小于0.05表示存在显著偏差。

研究样本
这项回顾性研究涉及来自四个机构的3376名儿童和成人患者的3680个MRI扫描,这些患者被确诊或怀疑患有CLD(慢性肝病)。我们的研究包括了来自GE HealthCare、Philips Healthcare和Siemens Healthineers制造的20种不同MRI系统的成像数据,场强包括1.5 T和3 T。研究人群的平均年龄(SD)为50.1(16.5)岁,平均BMI为29.1(6.6)kg/m²,其中1924(52.3%)为女性患者。参与者选择过程和纳入/排除标准在图1中总结,额外的研究样本特征在表1中详细说明。

表1 参与者特征,包括训练和外部测试队列的人口统计信息和肝脏剪切硬度特征

训练集包括来自1876名患者的2091个MRI检查(平均年龄[SD]为41.8 [12.5]岁,平均BMI为28.1 [6.5] kg/m²;984 [52.4%]为女性)。时间保留的测试集包括来自1135名患者的1224个MRI检查(平均年龄[SD]为53.9 [13.9]岁,平均BMI为28.8 [6.2] kg/m²;601 [53.0%]为女性)。外部测试集包括来自365名患者的365个MRI检查(平均年龄[SD]为41.6 [12.6]岁,平均BMI为27.9 [5.9] kg/m²;185 [50.7%]为女性)。

使用内部多站点交叉验证的模型评估
表2显示了使用不同组合的MRI序列和EHR数据的多通道模型预测肝脏硬度的性能。仅使用EHR数据时,模型的RMSE为1.59 kPa [95% CI: 1.46, 1.74],r为0.63 [95% CI: 0.58, 0.67]。单独使用T2w时,RMSE为1.47 kPa [95% CI: 1.35, 1.61],r为0.70 [95% CI: 0.66, 0.73]。结合T1w、T2w、DWI和EHR数据后,结果进一步改善,RMSE为1.29 kPa [95% CI: 1.19, 1.41],r为0.78 [95% CI: 0.75, 0.80]。

表2 使用常规获取的临床轴向T1w、T2w和DWI MR图像以及EHR数据作为输入的多通道模型预测基于MRE的肝脏剪切硬度的性能

为了评估模态贡献,消融测试比较了单序列和多序列输入。如表2所示,结合T1w、T2w和DWI一致性地提高了性能,相对于任何单一模态。

在时间保留的测试集上的模型评估
在时间保留的测试集上测试时(表3),仅使用EHR数据,模型的RMSE为1.64 kPa [95% CI: 1.40, 1.94],r为0.63 [95% CI: 0.57, 0.70]。仅使用T2w数据比单独使用T1w或DWI获得了更好的性能,RMSE为1.53 kPa [95% CI: 1.28, 1.81],r为0.69 [95% CI: 0.65, 0.74]。结合T1w、T2w、DWI和EHR数据后,结果进一步改善,RMSE为1.37 kPa [95% CI: 1.13, 1.64],r为0.77 [95% CI: 0.73, 0.80]。

使用内部测试队列的分段MRI图像和EHR数据作为输入的多通道模型评估
表4显示了使用内部测试队列的分段MRI图像和EHR数据的多通道模型进行肝脏剪切硬度回归的性能

在外部测试集上的模型评估
在外部测试集上测试时(表4),仅使用EHR数据,模型的RMSE为1.37 kPa [95% CI: 1.14, 1.64],r为0.63 [95% CI: 0.55, 0.72]。结合MRI序列后,性能进一步提高,RMSE为1.04 kPa [95% CI: 0.91, 1.18],r为0.72 [95% CI: 0.63, 0.79]。添加EHR数据后,模型的性能进一步提高,RMSE为0.99 kPa [95% CI: 0.84, 1.14],r为0.76 [95% CI: 0.69, 0.83]。

肝脂肪变性的影响
我们评估了SLD对肝脏硬度预测的影响(表5)。多通道模型在没有SLD和有SLD的患者之间的性能有所不同。对于没有SLD的患者,模型的r为0.76 [95% CI: 0.73, 0.80],而在有SLD的患者中,性能略低,r为0.74 [95% CI: 0.70, 0.78]。

误差(偏差)分析
图3使用散点图和Bland–Altman(BA)分析展示了模型在三个数据集上的性能。在训练集(第一行)中,BA图显示了+2.5和-2.5 kPa的一致性界限(LoA),平均偏差为0.02 kPa(p = 0.53)。在时间保留的内部测试集(第二行)中,LoA为+2.7和-2.6 kPa,平均偏差为0.03 kPa(p = 0.43)。在外部测试集(第三行)中,LoA更窄,为+2.0和-1.9 kPa,平均偏差为0.04 kPa(p = 0.40)。在任何数据集中都没有观察到预测的肝脏硬度与MRE测量的肝脏硬度之间的系统偏差(p > 0.05)。图4-6展示了按人口统计学和表型类别分层的残差的额外BA图。没有检测到由于年龄、性别或BMI引起的显著偏差;然而,残差幅度在硬度水平上有所不同,对于肝脏硬度> 6 kPa的情况最为明显。这种模式可能反映了训练数据集中晚期纤维化病例的相对较少。扩展这一范围内的训练数据可能会提高对严重疾病的性能。

图3
此图像的替代文本可能是使用AI生成的。

散点图和Bland–Altman分析用于评估多通道模型在三个数据集上的性能。顶部行代表训练集,中间行对应于内部时间保留的测试集,底部行显示独立保留的外部测试集。

对于训练集,显示了每个类别内不同组的残差,并使用ANOVA计算p值以评估组间残差的一致性水平。模型在真实硬度上显示出偏差(p < 0.001),而在BMI、年龄和性别上没有显著偏差(p > 0.05)。Bland–Altman图显示了残差与A MRE测量的肝脏硬度、B BMI和C年龄的关系,p值在图例中指示。D 小提琴图按性别显示了残差,其中实线蓝色代表平均残差,红色虚线表示±1.96标准差。

对于时间保留的内部测试集,显示了每个类别内不同组的残差,并使用ANOVA计算p值以评估组间残差的一致性水平。模型在真实硬度上显示出偏差(p < 0.001),而在BMI、年龄和性别上没有显著偏差(p > 0.05)。Bland–Altman图显示了残差与A MRE测量的肝脏硬度、B BMI和C年龄的关系,p值在图例中指示。D 小提琴图按性别显示了残差,其中实线蓝色代表平均残差,红色虚线表示±1.96标准差。

对于外部测试集,显示了每个类别内不同组的残差,并使用ANOVA计算p值以评估组间残差的一致性水平。模型在真实硬度上显示出偏差(p < 0.001),而在BMI、年龄和性别上没有显著偏差(p > 0.05)。Bland–Altman图显示了残差与A MRE测量的肝脏硬度、B BMI和C年龄的关系,p值在图例中指示。D 小提琴图按性别显示了残差,其中实线蓝色代表平均残差,红色虚线表示±1.96标准差。

讨论
本研究开发了一个基于变压器的多通道深度学习模型,从常规的多参数MRI和EHR数据预测肝脏剪切硬度,从而在有多参数MRI和EHR数据可用时潜在地减少了专用MRE的需求。这项研究表明,深度学习模型可以预测MRE衍生的肝脏硬度,并且在内部和外部数据集之间具有一致性。重要的是,这项工作的目标是预测连续的MRE衍生的肝脏硬度,而不是基于组织的纤维化阶段;因此,结果应在MRE硬度估计的背景下解释,而不是基于活检的分期。在一个大型、多站点、多供应商的结合了儿童和成人的队列中,将多个MRI序列与临床数据整合后,在内部和外部验证中的相关系数均高于0.7。观察到的共识界限(±2.5 kPa)与之前报告的肝脏MRE和US剪切波弹性成像研究的扫描仪间和读数间变异性相当,这些研究的硬度值通常在≤约10–12 kPa的范围内为±2–3 kPa [35,36,37,38]。尽管这种误差水平可能会限制诊断决策的准确性,但它可能足以用于初步筛查/分诊、长期监测以及与其他非侵入性生物标志物的结合,以细化纤维化的分期。在专用MRE(磁弹性成像)获取受限的情况下,这种方法可能具有技术可行性。成本、时间和工作流程影响的评估超出了本研究的范围;因此,关于可访问性的参考应从技术实施的角度来理解,而不是展示出经济或运营优势。到目前为止,Pollack等人[25]是唯一一项使用其机构采用的MRI序列(包括非对比T1w LAVA水、LAVA脂肪、延迟后对比T1w LAVA水(120秒延迟)和单次快速自旋回波T2w图像)以及电子健康记录(EHR)数据来预测连续肝脏剪切刚度测量的研究。在他们对149名患者的回顾性研究中,该模型在使用内部40倍交叉验证(CV)的情况下达到了0.50±0.05的R²值。然而,他们的研究部分依赖于增强成像和特定机构的MRI协议,这限制了其在不同临床环境、MRI扫描仪和患者群体中的适用性。相比之下,我们的模型在更大的多站点、多供应商数据集上表现更好,在10倍CV中达到了0.78 [95% CI: 0.75, 0.80]的相关性(表2),在内部测试中达到了0.77 [95% CI: 0.73, 0.80]的相关性(表3),在外部测试中达到了0.76 [95% CI: 0.69, 0.83]的相关性(表4)。我们的模型可能更受欢迎,因为它使用的是常见的非对比多参数MRI序列,这些序列在安全性和可访问性方面具有多个优势。特别是,非对比MRI消除了与钆基造影剂相关的某些风险,如类似过敏的反应和肾源性系统性纤维化。

先前的一项研究使用支持向量机(SVM)分类器开发了一个机器学习模型,该模型在分类肝脏剪切刚度(即预测正常与异常肝脏剪切刚度)时的AUROC为0.70 [15]。然而,这种方法使用了手动肝脏分割和放射组学特征提取,因此耗时且不太适合常规临床使用。随后,基于单一机构队列开发了一个深度学习模型DeepLiverNet 1.0 [24],该队列包括273名已知或疑似患有慢性肝病的患者。该模型仅使用T2加权图像对肝脏剪切刚度进行分类时,达到了0.80的AUROC。在同一研究中,结合MRI和EHR数据在内部CV中提高了分类性能,AUROC为0.86,而仅使用EHR数据或成像数据时的AUROC分别为0.83和0.80。DeepLiverNet 1.0在外部验证中的分类AUROC为0.79。我们当前的研究提出了一个多通道模型,这是一个基于增强型变压器的深度学习模型,用于从MRI预测连续肝脏刚度测量。该模型在包括T1w、T2w和DWI序列的大型、多站点、多供应商数据集(n = 3591)上进行了开发和验证,与MRE测量的刚度具有更强相关性,并提高了临床适用性。在所有评估中,使用组合MRI序列的模型始终优于使用任何单一模态的模型,当整合EHR数据时,性能进一步提高,反映了临床信息和成像特征的互补价值。这种多模态优势在各个数据集中都是一致的,表明模型在患者群体和成像设置中的表现稳健。虽然没有对当前回归框架进行正式的可解释性分析,但使用同一队列进行肝脏刚度分类的先前工作通过Grad-CAM分析表明,模型关注点集中在与肝脏和脾脏相关的解剖学区域[26]。这些先前的证据提供了上下文支持,表明模型学习的成像特征来源于与肝脏刚度相关风险分层相关的解剖学区域。

为了更深入地了解模型行为,我们检查了残差模式。如Bland–Altman分析所示,预测值和参考刚度值之间存在残差变异性,这可能会影响接近诊断阈值时的解释。值得注意的是,无论是超声剪切波弹性成像还是其他系统,都报告了相似或更大的变异性[39]。在所有验证实验中,残差幅度随着刚度的增加而增加,尽管这种趋势在大约6–8 kPa以上可能具有有限的临床相关性,因为在这个范围内肝脏已经非常坚硬。模型显示年龄、性别或BMI对残差没有显著影响。尽管队列包括儿童和成人受试者,但样本量严重不平衡(125名儿童受试者对比3554名成人受试者)。鉴于这种差异以及不同机构之间的年龄分布差异,儿童和成人特定亚组的分析被推迟到未来的工作中进行,以评估其在不同年龄段的普遍性。模型在患有脂肪性肝病的患者和较高刚度值(> 6 kPa)的患者中的表现略有变化。这可能反映了肝脂肪变性情况下信号特征的变化,这也是先前研究中MRE本身所面临的挑战。这些发现与先前的报告一致,表明肝脏组成可以影响刚度测量[32]。这可能反映了脂肪肝中组织组成的异质性,其中脂肪和纤维化区域共存。这种异质性可能会降低MRE衍生刚度值的准确性,使得模型预测在这个亚组中的可靠性降低。在训练中包含更多非酒精性脂肪肝(SLD)病例可能有助于提高性能。然而,Fisher z检验显示相关性差异在统计上并不显著(z = −1.25, p = 0.21),表明尽管存在轻微的数值差异,模型在SLD和非SLD受试者之间的表现相当。这些发现强调了在开发AI模型时考虑患者特定因素和病史的重要性。

尽管我们的深度学习模型在预测肝脏刚度方面表现出了有希望的结果,但仍需注意几个重要的局限性。由于回顾性设计,本研究没有评估模型在临床决策中的实际影响。前瞻性评估是我们正在进行的工作的重点,超出了本研究的范围。由于我们研究的回顾性和多机构性质,无法进行组织学验证,而且大多数病例没有可用的既定纤维化评分系统(例如METAVIR)。未来的工作将集中在整合活检验证的纤维化等级,以实现直接的临床病理相关性和特定阶段的验证。由于参与机构之间相关数据的不一致性,某些潜在混杂因素(如肝脏铁过载)的影响没有得到评估。此外,不同机构之间EHR数据质量的差异可能引入了作为模型输入的临床特征的完整性和一致性的变异性。建模流程依赖于自动化的肝脏和脾脏分割来定义感兴趣的区域。虽然分割变异性是一个潜在的局限性,但自动化方法与手动方法相比大大减少了操作者之间的变异性,提高了病例间的一致性。本研究没有明确量化残差分割不确定性对模型输出的影响。模型性能仍然适中,95%的一致性限值(± 2.5 kPa)比预期的要宽。然而,使用常规MRI和EHR数据表明其成本效益良好,值得未来的健康经济评估。进一步的改进,如结合额外的脉冲序列、改进数据协调性和进行前瞻性验证,可能会提高精度和临床适用性。最后,虽然我们的方法消除了对MRE硬件的需求,但我们没有进行正式的成本效益分析。

总之,我们的研究表明,结合多参数腹部MRI和EHR数据使用先进的深度学习算法(特别是基于Swin变压器的多通道模型)来预测连续肝脏剪切刚度是可行的。使用包括儿童和成人患者的大型、多站点、多供应商数据集,我们展示了将多种MRI序列与临床数据结合可以提高预测性能。需要在不同人群的临床环境中进行前瞻性验证,以确认模型的实用性。还需要持续的努力来减少预测误差并进一步细化模型,以提高准确性。

生物通微信公众号
微信
新浪微博


生物通 版权所有