**摘要**
**目的**
开发并外部验证一种可解释的融合模型,该模型结合了多时间点的CT放射组学特征和临床-语义特征,以预测 pulmonary ground-glass nodules(肺部磨玻璃结节)的侵袭性,并支持三层风险分层。
**材料与方法**
在这项多中心回顾性研究中,纳入了通过手术切除或通过CT监测(持续时间≥3年)管理的肺部磨玻璃结节患者。基线(T0)和随访(T1)时的薄层CT扫描用于提取每个时间点的放射组学特征和差异放射组学特征。使用中心分组交叉验证和概率校准方法训练了四种单模模型(T0放射组学、T1放射组学、差异放射组学和临床-语义模型),然后通过堆叠逻辑回归进行融合。通过两个训练得出的概率阈值定义了低风险组和高风险组,并在外部队列中与基于临床和指南的模型进行比较。
**结果**
训练和外部验证队列分别包括358名和46名患者。融合模型的外部接收者操作特征曲线下面积(AUC)为0.985(95%置信区间:0.955–1.000),校准效果良好。使用训练得出的阈值(0.50和0.65),28.3%的患者被分类为低风险(阳性预测值(NPV)100%;95%置信区间:75.3–100.0),69.6%的患者被分类为高风险(PPV)93.8%;95%置信区间:79.2–99.2;敏感性96.8%;95%置信区间:83.3–99.9)。该模型将每100个非侵袭性病变中的高风险误判率从33.3降低到13.3,并显示出比比较模型更高的净效益。
**结论**
一种可解释的融合模型能够实现肺部磨玻璃结节的三层风险分层,可能减少低剂量CT筛查程序中的过度诊断和过度治疗。
**关键相关性声明**
一种经过校准、可解释的肺部磨玻璃结节融合模型可以实现准确的三层风险分层,减少高风险误判,支持对低风险患者安全地降低监测强度。
**要点**
- 一种结合多时间点CT放射组学特征和临床-语义特征的可解释融合模型可以预测肺部磨玻璃结节的侵袭性。
- 该融合模型表现出优异的区分能力(外部AUC 0.985)和良好的校准效果,优于单模放射组学和基于指南的风险模型。
- 使用校准后的阈值进行的三层风险分层可以减少高风险误判,并支持对低风险患者安全地降低监测强度。
**图形摘要**
此图像的替代文本可能是使用AI生成的。进一步的methodological细节在补充材料中提供。整个建模工作流程在图2中进行了总结。图2中,这幅图像的替代文本可能是使用AI生成的。全尺寸图像是用于GGN风险分层的可解释多时间点融合模型的工作流程。来自三个中心的基线(T0)和随访(T1)薄层CT扫描被用于三维ROI分割、定量测量和协调。从基线、随访和纵向变化中获得的放射组学特征与临床-语义变量结合,生成了四个输入特征流:T0放射组学、T1放射组学、delta-放射组学和临床-语义特征。开发了四个单模模型,它们的外折叠预测概率被校准,并将校准后的输出整合到一个堆叠的逻辑回归融合模型中。然后使用SHAP解释融合模型,并使用训练得到的锁定阈值t1=0.50和t2=0.65将其映射到三级风险分层。风险分层和统计分析中,融合模型的概率被线性映射到0-100的风险评分。使用训练外折叠预测,排除了t1阈值为侵入性病变的敏感性≥95%的阈值。首先评估了t2阈值,要求PPV≥75%;为了保持保守的纳入边界和有意义的中间风险带,我们额外要求t2≥t1+0.05和t2≥0.65。然后锁定这两个阈值,并将其不加改变地应用于外部队列。使用AUC和95%置信区间评估区分度;使用Brier分数、ECE和校准图进行校准[15];以及使用决策曲线分析(DCA)针对全部治疗、不治疗和基于指南的策略进行临床效用评估[16]。根据需要使用参数或非参数测试。在放射组学特征选择过程中,使用Mann-Whitney U检验和Benjamini-Hochberg(BH)假发现率校正进行单变量筛选,保留调整后的p<0.05的特征。使用DeLong的检验比较AUCs[27],并使用McNemar的检验比较配对比例。完整的统计方法在补充材料中报告。
使用SHAP[18]为融合模型生成全局和案例级别的解释。在补充材料(补充图S10)[28]中描述了一个用于患者级别风险预测和SHAP可视化的基于Web的小型原型。进行了两项敏感性分析:仅病理学的子集和自助法替代稳定性阈值。最后,我们将融合模型与Lung-RADS v2022、2017年Fleischner指南和重新校准的Brock-lite模型[6, 8, 29]进行了基准测试。指南类别使用已发布的二维直径和生长标准映射到三个风险等级[6, 8]。Brock-lite使用交叉验证的Platt缩放[25, 29]进行重新校准,比较使用了AUC、DCA和净重分类改进(NRI)[30]。进一步的methodological细节在补充材料中提供。
结果
最终队列包括404名患有GGN的患者,其中358人在训练队列中,46人在外部队列中(31例侵入性,15例非侵入性;图1)。由于外部验证是基于中心的,因此内部使用了中心1-2,中心3作为一个独立的外部队列;大小不平衡也反映了中心3满足所有合格标准的案例较少,特别是在放射学上稳定的监测亚组中要求≥3年的CT随访。在训练队列中,221个病变是侵入性的,137个是非侵入性的。侵入性病变在年龄较大和女性患者中更常见,并且显示出更大的基线体积、更高的平均CT衰减和更多的恶性语义特征(所有p<0.05;表1和表2)。在外部队列中也观察到了类似的模式。
表1 训练和验证队列中侵入性和非侵入性GGN患者的基线特征
全尺寸表格
表2 训练和验证队列中侵入性和非侵入性GGN的随访和delta CT特征
全尺寸表格
单模模型性能
在按中心分组的交叉验证中,T0-放射组学的AUC为0.718,T1-放射组学的AUC为0.862,delta-放射组学的AUC为0.861,临床-语义模型的AUC为0.917(图3a和补充表S6A)。所有单模模型的外部AUC仍然很高(0.942–0.978;图3b和补充表S6A)。在t2=0.65时,外部队列中每100个非侵入性病变的假阳性高风险分类分别为33.3、20.0、20.0和13.3(图3f)。
图3
这幅图像的替代文本可能是使用AI生成的。全尺寸图像
在训练得到的和锁定的阈值(t1=0.50,t2=0.65)下,单模模型和融合模型的区分度、假阳性负担和校准。a、b显示了四种单模模型(T0放射组学、T1放射组学、delta-放射组学和临床-语义)以及堆叠融合模型在内部交叉验证(外折叠预测,a)和外部验证队列(b)中的接收者操作特征(ROC)曲线。c、d分别显示了在内部交叉验证(外折叠预测)和外部队列中,每个模型在t2=0.65时的敏感性和特异性,以及95%置信区间。e、f显示了在t2=0.65时不同模型在内部(e)和外部(f)队列中每100个非侵入性病变的假阳性高风险分类的数量。g、h描绘了内部交叉验证(g)和外部验证(h)中的校准曲线,使用分位数区间来比较预测概率和观察到的事件率;虚线表示完美的校准。对于外部校准的融合模型,实际的校准指标为ECE=0.060和MCE=0.500。总体而言,与单模模型相比,融合模型显示出了更强的区分度、更低的假阳性负担和更有利的校准。
堆叠融合模型和风险分层
结合所有单模输出的校准堆叠融合模型表现出最佳的整体性能。其AUC在中心分组交叉验证中为0.933(95% CI:0.903–0.958),在外部队列中为0.985(95% CI:0.955–1.000),超过了所有单模模型(图3a、b和补充表S6A)。外部队列中的校准效果良好(Brier分数0.042;预期校准误差0.060;图3g、h)。
使用训练得到的和锁定的阈值t1=0.50和t2=0.65,预测概率被映射到三个风险等级。在训练队列中,31.6%的患者被分类为低风险,6.4%为中等风险,62.0%为高风险,相应的癌症发生率分别为6.2%、60.9%和90.1%(图4a、b)。在外部队列中,28.3%的患者(13/46)为低风险,2.2%(1/46)为中等风险,69.6%(32/46)为高风险,各风险等级的癌症发病率分别为0%、100%和93.8%。这产生了100.0%的负预测值(NPV)(95% CI:75.3–100.0)用于低风险分类,以及93.8%的阳性预测值(PPV)用于高风险分类(补充表S6B)。
图4
这幅图像的替代文本可能是使用AI生成的。全尺寸图像
使用校准的融合模型进行三级风险分层。预测概率使用训练得到的和锁定的阈值t1=0.50(低风险排除)和t2=0.65(高风险纳入)映射到三个风险等级。a显示了在内部外折叠(OOF)评估和外部验证中分配到低风险、中等风险和高风险等级的患者比例。b显示了在内部OOF评估和外部验证中每个风险等级内的癌症发病率。c显示了在内部OOF评估和外部验证中非侵入性和侵入性病变的融合模型风险分数(0-100)的分布;垂直虚线表示t1和t2,对应于风险分数50和65。大多数侵入性病变集中在高风险等级中,而在低风险等级中的事件率非常低。
风险分数分布显示了侵入性和非侵入性病变之间的明显分离(图4c)。在高风险阈值t2=0.65时,与T0-放射组学模型相比,融合模型将外部队列中每100个非侵入性病变的假阳性高风险分类从33.3减少到13.3,同时保持了高敏感性(96.8%;30/31个侵入性病变被正确分类为高风险;图3f和补充表S6B)。在内部交叉验证中也看到了类似的减少(图3e)。
与Lung-RADS v2022和2017年Fleischner指南相比,校准的融合模型在0.10–0.80的阈值概率范围内在内部和外部决策曲线分析中显示出更高的净收益(图5a、b)。内部与Lung-RADS的Categorical NRI为0.36,外部为0.64;与Fleischner指南的相应值为0.19和0.29(图5c和补充表S6C)。收益主要来自于恶性病变的正确向上重分类,非侵入性病例的恶化有限(图5d和补充表S6C)。
图5
这幅图像的替代文本可能是使用AI生成的。全尺寸图像
DCA和NRI用于比较校准的融合模型与基于指南和临床的风险模型。a、b分别显示了内部(外折叠)和外部DCAs,比较了融合模型(蓝色实线)与Lung-RADS v2022、2017年Fleischner指南、重新校准的Brock-lite模型以及全部治疗和不治疗策略在一系列阈值概率下的净收益。阴影区域表示围绕训练得到的和锁定的排除和纳入阈值(t1=0.50,t2=0.65)的区间。c、d分别显示了内部和外部队列中融合模型与Lung-RADS v2022和2017年Fleischner指南的Categorical NRI和Binary NRI,以及95%置信区间。正的NRI值表示与指南策略相比,融合模型改善了风险分类。
全球SHAP分析显示,临床-语义元预测器对融合决策的贡献最大,其次是T1和delta-放射组学,而T0-放射组学的贡献较小(图6a),这与单模性能一致。案例级别的SHAP图说明了四个元预测器在个别患者中的组合(图6b–g)。去除T0放射组学后,融合消融的AUC没有显著变化,而去除T1或delta只导致了小的减少,置信区间穿过零(补充图S13)。
图6
这幅图像的替代文本可能是使用AI生成的。全尺寸图像
基于SHAP的可解释性和校准融合模型的说明性案例。a显示了四个元预测器(T0放射组学、T1放射组学、delta-放射组学和临床-语义模型)的全球平均绝对SHAP值,表明临床-语义概率和T1/delta组件对最终风险分数的贡献最大,而仅T0组件的影响较小。b显示了一个被正确分类为高风险的代表性侵入性病变的SHAP决策路径(预测高于纳入阈值t2),其中临床-语义、T1和delta-放射组学元预测器有额外的正向贡献,而T0组件的贡献较小。c显示了一个被分类为低风险的代表性非侵入性病变的SHAP决策路径(预测低于排除阈值t1),其中临床-语义和T1组件的负贡献占主导地位,超过了放射组学组件的小正向贡献。d、e显示了(b)中高风险侵入性病变的基线(T0)和随访(T1)薄层CT图像,显示了一个随时间逐渐增大的实质性结节,以及衰减的增加。f、g显示了(c)中低风险非侵入性病变的基线和随访CT图像,显示了一个随时间放射学上稳定的小纯GGN。
在仅病理学的敏感性分析中(n=305),基线和随访模式与完整队列中的大致相似(补充表S7和S8)。融合模型保持了高度的区分度(外部AUC 0.935 vs T0-放射组学的0.828;p=0.036),并且在内部交叉验证中产生的假阳性高风险分类较少(McNemar p<0.01),外部也有类似的趋势(补充表S9A)。
讨论
在这项多中心研究中,我们开发并外部验证了一个可解释的融合模型,该模型结合了临床-语义变量、基线、随访和delta-放射组学来预测GGN的侵袭性。该模型显示出高度的区分度(外部AUC 0.985)、良好的校准、低风险组100%的NPV和高风险组93.8%的PPV,同时只有2.2%的患者被分配到中等风险灰色区。
这些发现对LDCT筛查和偶然发现的GGN管理具有临床相关性。基于指南的策略主要依赖于二维大小和简单的生长标准,这些标准提供了有限的特异性,并导致许多惰性病变的假阳性分类和延长的监测,而一些表面上稳定的GGN后来被证明是侵入性的[1, 2, 6,7,8,9]。通过纳入时间放射组学和校准后的概率,我们的模型与T0-放射组学模型相比减少了假阳性高风险分类,同时在锁定的排除阈值下保持了高敏感性和NPV,表明在早期检测和过度治疗之间取得了更有利的平衡。
methodologically上,这项研究扩展了之前的放射组学和delta-放射组学工作[12,13,14]。我们没有将所有变量合并到一个高维特征块中,而是分别训练了基线、随访和delta-放射组学模型,并通过校准的堆叠将它们与临床-语义模型结合。T1-和delta-放射组学相对于T0-放射组学的更强性能,以及临床-语义组分的主导贡献,表明时间演化增加了超出静态形态的预后信息,同时可解释的语义特征仍然是决策的稳健锚点[6, 7, 12, 31]。我们还评估了校准、决策曲线性能和假阳性负担,符合当代关于放射组学和预测模型报告的建议[15, 16, 22, 24]。
研究人群和参考标准是额外的优点。许多放射组学研究基于外科手术数据系列,这些数据中侵袭性病变被过度代表,而通过保守治疗管理的小型增生性结节(GGN)则被低估[13, 14, 31]。我们提出的综合参考标准结合了世界卫生组织(WHO)定义的腺瘤性息肉(AAH/AIS)标准,以及一组在放射学上至少三年保持稳定且年体积增长率受限的小型孤立性GGN的监测亚组[3,4,5, 19],从而更准确地反映了门诊患者和筛查人群的情况。仅基于病理学结果的敏感性分析显示,融合模型比单一模式的放射组学模型具有更高的区分度,并降低了假阳性率,部分缓解了关于验证偏倚的担忧。与Lung-RADS指南和重新校准的Brock-lite相比,融合模型在多个临床相关阈值上显示出更大的净益处,并且在恶性病变的重新分类方面表现更优[6, 8, 29, 30]。这些发现表明,结合三维体积测量、纵向放射组学和语义信息能够提供超出基于直径的方案和现有风险模型的额外预后价值。SHAP分析有助于解释模型的行为。T0期放射组学的有限增量贡献可能反映了其与基线语义特征和尺寸相关描述符的重叠,而随访和纵向数据则能捕捉到更多关于时间演变的信息。在元预测因素层面,临床语义因素的贡献最大,其次是T1期放射组学和delta-radiomics。在该分支中,结节大小、实性成分、棘刺形成和血管聚集是最有影响力的因素,这与先前的研究结果一致[6, 7, 17, 32]。个案级别的SHAP图显示,不同模态间证据的一致性支持高可信度的纳入决策,而不一致的模式与较低的最终风险相关。本研究存在局限性:它是回顾性的,尽管是多中心研究,但外部验证队列规模较小且不平衡,特别是对于非侵袭性病变;因此,校准总结和阈值依赖的估计结果应谨慎解释,因为多个95%置信区间较宽,需要更大的前瞻性多中心研究来验证阈值的可靠性和普遍性。尽管进行了切片轮廓标准化和ComBat协调处理,CT采集和重建的残余异质性可能仍然存在[21, 22],尤其是对于依赖于重建的纹理特征而言,且三个参与中心之外的可重复性仍不确定[33, 34]。本研究仅模型化了两个时间点的数据;更密集的纵向采样可能有助于更好地捕捉非线性生长情况[13, 14]。综合参考标准无法完全消除验证偏倚:放射学上的稳定性并不能保证病变的良性,生长极慢的侵袭性病变可能会被误分类,每年6.0%的稳定阈值是内部推导出的,可能会因不同的扫描仪或随访协议而有所差异。尽管如此,仅基于病理学结果的分析和不同阈值的敏感性分析显示了一致的趋势。最后,基于网络的SHAP工具旨在提高研究的透明度,而非用于常规临床应用,在没有前瞻性验证和实际决策影响分析或模拟的情况下,不应将其用于指导患者治疗。
**结论**
我们开发并对外部验证了一个可解释的融合模型,该模型结合了临床语义特征、基线和随访数据以及delta-radiomics来预测GGN的侵袭性。该模型显示出高区分度和良好的校准性能,支持三级风险分层,并在排除风险和纳入高风险病例方面表现优异,与单一模式的放射组学和指南基于的策略相比,假阳性高风险分类的发生率更低。这些发现支持对经过校准的可解释融合模型进行前瞻性评估,以便根据病变演变情况管理GGN并减少低剂量CT筛查中的过度治疗。
打赏