基于CT的深度学习模型多中心验证:用于指导纯磨玻璃肺结节的治疗决策

时间:2026年5月22日
来源:International Journal of Surgery Open

编辑推荐:

背景:在纯磨玻璃结节(pGGN)中区分浸润性腺癌(IAC)与非IAC仍是一项关键的临床挑战。研究人员旨在开发并多中心验证一种基于CT的深度学习模型,以区分pGGN中的IAC与非IAC病变,并将其性能与人类专家进行比较,从而筛选出可能为IAC、适合进行根治性手术

广告
   X   

背景:在纯磨玻璃结节(pGGN)中区分浸润性腺癌(IAC)与非IAC仍是一项关键的临床挑战。研究人员旨在开发并多中心验证一种基于CT的深度学习模型,以区分pGGN中的IAC与非IAC病变,并将其性能与人类专家进行比较,从而筛选出可能为IAC、适合进行根治性手术管理的pGGN候选病例。方法:这项回顾性研究纳入了来自6家医疗机构的1707个手术切除了且经病理证实的pGGN。研究人员开发了Lung-PNetV2,这是一个模块化的深度学习框架,集成了跨扫描仪标准化、3D容积编码(通过ResNet-18)以及影像、结节和临床特征的多模态融合。该模型在847个pGGN上训练,并进行内部验证(203个pGGN)和外部验证(657个pGGN)。七名临床医生(四名放射科医生和三名胸外科医生)使用NCCN(美国国家综合癌症网络)指南推荐的5分制评分法独立评估了保留测试集。结果:Lung-PNetV2取得了0.892(训练集)、0.831(内部测试集)和0.827(外部测试集)的AUC值,显著优于所有人类阅片者(AUC:0.681–0.722;P < 0.01)。在临床决策阈值(IAC概率为0.6)下,该模型在外部测试集中表现出均衡的性能:准确率81.0%,灵敏度67.7%,特异度84.1%,阴性预测值91.8%。该深度学习模型的灵敏度(67.7% vs 60.9%)超过放射科医生,特异度(84.1% vs 78.3%)超过外科医生,同时保持更优的宏F1值(72.5% vs 阅片者范围:54.1–67.0%;P < 0.05,7人中的4人)。结论:基于CT的Lung-PNetV2深度学习模型提供了一种可泛化的性能,通过影像和临床数据的有效跨模态融合,在分层pGGN侵袭性方面超越了人类专家。其均衡的灵敏度和特异度特征支持风险分层管理,使预测为非IAC的pGGN避免不必要的操作,而高风险病例接受及时的根治性手术,从而实现个体化及精准的治疗。
研究背景与意义
肺癌是全球癌症相关死亡的首要原因,其中腺癌是最常见的亚型,常以磨玻璃结节(Ground-Glass Nodule, GGN)形式表现在CT上。纯磨玻璃结节(pure ground-glass nodule, pGGN)可对应不同的病理亚型,包括非典型腺瘤样增生(Atypical Adenomatous Hyperplasia, AAH)、原位腺癌(Adenocarcinoma In Situ, AIS)、微浸润性腺癌(Minimally Invasive Adenocarcinoma, MIA)和浸润性腺癌(Invasive Adenocarcinoma, IAC)。其中,AAH、AIS和MIA(即非IAC)在手术切除后5年无病生存率(Disease-Free Survival, DFS)接近100%,通常可采取继续随访观察或亚肺叶切除术;而IAC预后相对较差(5年生存率70–90%),通常需要更广泛的手术干预。因此,术前准确区分pGGN中的IAC与非IAC对于制定治疗策略至关重要。传统影像学评估和术中冰冻病理常难以区分这些亚型,而基于人工智能(Artificial Intelligence, AI)的深度学习(Deep Learning, DL)和影像组学方法展现出改善分类的潜力。本研究旨在开发并多中心验证名为Lung-PNetV2的CT基于深度学习模型,以区分pGGN中的IAC与非IAC,并与人类专家性能进行对比。该研究发表于《International Journal of Surgery Open》,其成果意味着通过多模态数据融合,AI可提供更客观、均衡的风险分层,有助于减少不必要的手术并及时发现高危病例,实现个体化精准治疗。
主要关键技术方法
研究人员开展了一项回顾性多中心研究,纳入来自6家医疗机构的1707个手术病理确诊的pGGN(训练集847个,内部测试集203个,外部保留测试集657个)。关键技术包括:开发Lung-PNetV2框架,其整合了四个模块:1)跨扫描仪标准化(Cross-Scanner Normalization, CSN)模块,采用混合2D ResNet-34/U-Net架构标准化CT强度并增强空间分辨率;2)3D容积特征提取,使用3D ResNet-18处理结节容积以捕获多尺度解剖模式;3)临床与结节特征嵌入学习,对人口统计学、CT值、形态学等表型数据进行编码;4)跨模态融合,将冻结的预训练编码器特征投影至联合640维空间,由可训练分类器处理。此外,研究进行了人机对比观察者研究,七名资深临床医生(4名放射科医生,3名胸外科医生)基于NCCN 5点量表独立评估CT,并使用Delong检验、Bootstrap重采样等方法进行统计分析。
研究结果
患者与结节特征(Patient and nodule characteristics)
研究最终纳入1542名患者(中位年龄54.6岁,69.6%女性)的1707个pGGN。各数据集(训练、内部测试、外部测试)在年龄、性别分布上无显著差异,但在病理构成(如外部测试集IAC比例18.9%低于训练集27.7%)、结节体积、直径及CT扫描层厚上存在差异,反映了真实世界的异质性。
分类性能(Classification performance)
Lung-PNetV2模型在训练集、内部测试集和外部测试集的ROC-AUC分别为0.892、0.831和0.827,PR-AUC(精确率-召回率曲线下面积)分别为0.775、0.679和0.573。在外部测试集采用0.6概率阈值(对应NCCN评分4-5分为IAC)时,模型准确率为81.0%,灵敏度为67.7%,特异度为84.1%,宏F1值为72.5%,阴性预测值(Negative Predictive Value, NPV)高达91.8%。模型在不同结节大小亚组(5–10 mm, 11–20 mm, >20 mm)及不同CT扫描仪厂商(GE, Siemens, Philips等)间均表现出稳定一致的性能(AUC范围0.784–0.874)。
观察者研究(Observer study)
七名人类阅片者的ROC-AUC范围为0.681–0.722,显著低于模型的0.827(P < 0.01)。放射科医生平均AUC(0.746)和灵敏度(60.9%)高于外科医生(0.722和49.4%),但特异度(74.7%)低于外科医生(78.3%)。模型在灵敏度(67.7% vs 平均56.0%)和NPV(91.8% vs 88.5%)上均优于人类阅片者,宏F1值(72.5%)也显著优于大部分阅片者。人类阅片者间的一致性仅为一般(Fleiss kappa = 0.330)。
类激活图(Class activation maps)
通过3D Grad-CAM可视化显示,IAC病例的模型激活峰值位于结节边缘,与病理 stromal浸润和架构扭曲相关;MIA呈弥散激活;AIS呈中心激活。这表明模型能够定位与侵袭性相关的微环境改变。
讨论与结论总结
讨论部分指出,由于IAC与非IAC患者预后及手术方式不同,建立稳健模型预测pGGN侵袭性十分重要。Lung-PNetV2通过跨扫描仪标准化和多模态特征融合,克服了既往模型的限制,在区分IAC与非IAC方面优于人类专家,且在不同厂商CT设备上表现稳定。其二元分类(IAC vs 非IAC)较三元分类更具临床实用性,因为非IAC亚型(AAH/AIS/MIA)临床管理相似且预后极佳。模型均衡的指标(特别是91.8%的高NPV)有助于支持保守管理,减少过度治疗,同时及时识别IAC。研究局限性包括回顾性设计可能的选择偏倚,以及仅关注pGGN而未涵盖部分实性结节。未来需前瞻性试验验证。
结论:这项多中心研究验证了基于CT的深度学习模型Lung-PNetV2是区分pGGN中IAC与非IAC病变的稳健且可泛化的工具。其高NPV(91.8%)有助于避免惰性病例的不必要手术,均衡的诊断性能有助于及时识别需干预的IAC,可辅助临床医生制定更知情的风险分层决策。未来整合至PACS或结节分析插件中,可促进跨机构的规范化评估。

生物通微信公众号
微信
新浪微博


生物通 版权所有