基于CT的深度学习模型多中心验证：用于指导纯磨玻璃肺结节的治疗决策

时间：2026年5月22日

来源：International Journal of Surgery Open

编辑推荐：

背景：在纯磨玻璃结节（pGGN）中区分浸润性腺癌（IAC）与非IAC仍是一项关键的临床挑战。研究人员旨在开发并多中心验证一种基于CT的深度学习模型，以区分pGGN中的IAC与非IAC病变，并将其性能与人类专家进行比较，从而筛选出可能为IAC、适合进行根治性手术

背景：在纯磨玻璃结节（pGGN）中区分浸润性腺癌（IAC）与非IAC仍是一项关键的临床挑战。研究人员旨在开发并多中心验证一种基于CT的深度学习模型，以区分pGGN中的IAC与非IAC病变，并将其性能与人类专家进行比较，从而筛选出可能为IAC、适合进行根治性手术管理的pGGN候选病例。方法：这项回顾性研究纳入了来自6家医疗机构的1707个手术切除了且经病理证实的pGGN。研究人员开发了Lung-PNetV2，这是一个模块化的深度学习框架，集成了跨扫描仪标准化、3D容积编码（通过ResNet-18）以及影像、结节和临床特征的多模态融合。该模型在847个pGGN上训练，并进行内部验证（203个pGGN）和外部验证（657个pGGN）。七名临床医生（四名放射科医生和三名胸外科医生）使用NCCN（美国国家综合癌症网络）指南推荐的5分制评分法独立评估了保留测试集。结果：Lung-PNetV2取得了0.892（训练集）、0.831（内部测试集）和0.827（外部测试集）的AUC值，显著优于所有人类阅片者（AUC：0.681–0.722；P < 0.01）。在临床决策阈值（IAC概率为0.6）下，该模型在外部测试集中表现出均衡的性能：准确率81.0%，灵敏度67.7%，特异度84.1%，阴性预测值91.8%。该深度学习模型的灵敏度（67.7% vs 60.9%）超过放射科医生，特异度（84.1% vs 78.3%）超过外科医生，同时保持更优的宏F1值（72.5% vs 阅片者范围：54.1–67.0%；P < 0.05，7人中的4人）。结论：基于CT的Lung-PNetV2深度学习模型提供了一种可泛化的性能，通过影像和临床数据的有效跨模态融合，在分层pGGN侵袭性方面超越了人类专家。其均衡的灵敏度和特异度特征支持风险分层管理，使预测为非IAC的pGGN避免不必要的操作，而高风险病例接受及时的根治性手术，从而实现个体化及精准的治疗。

研究背景与意义

肺癌是全球癌症相关死亡的首要原因，其中腺癌是最常见的亚型，常以磨玻璃结节（Ground-Glass Nodule, GGN）形式表现在CT上。纯磨玻璃结节（pure ground-glass nodule, pGGN）可对应不同的病理亚型，包括非典型腺瘤样增生（Atypical Adenomatous Hyperplasia, AAH）、原位腺癌（Adenocarcinoma In Situ, AIS）、微浸润性腺癌（Minimally Invasive Adenocarcinoma, MIA）和浸润性腺癌（Invasive Adenocarcinoma, IAC）。其中，AAH、AIS和MIA（即非IAC）在手术切除后5年无病生存率（Disease-Free Survival, DFS）接近100%，通常可采取继续随访观察或亚肺叶切除术；而IAC预后相对较差（5年生存率70–90%），通常需要更广泛的手术干预。因此，术前准确区分pGGN中的IAC与非IAC对于制定治疗策略至关重要。传统影像学评估和术中冰冻病理常难以区分这些亚型，而基于人工智能（Artificial Intelligence, AI）的深度学习（Deep Learning, DL）和影像组学方法展现出改善分类的潜力。本研究旨在开发并多中心验证名为Lung-PNetV2的CT基于深度学习模型，以区分pGGN中的IAC与非IAC，并与人类专家性能进行对比。该研究发表于《International Journal of Surgery Open》，其成果意味着通过多模态数据融合，AI可提供更客观、均衡的风险分层，有助于减少不必要的手术并及时发现高危病例，实现个体化精准治疗。

主要关键技术方法

研究人员开展了一项回顾性多中心研究，纳入来自6家医疗机构的1707个手术病理确诊的pGGN（训练集847个，内部测试集203个，外部保留测试集657个）。关键技术包括：开发Lung-PNetV2框架，其整合了四个模块：1）跨扫描仪标准化（Cross-Scanner Normalization, CSN）模块，采用混合2D ResNet-34/U-Net架构标准化CT强度并增强空间分辨率；2）3D容积特征提取，使用3D ResNet-18处理结节容积以捕获多尺度解剖模式；3）临床与结节特征嵌入学习，对人口统计学、CT值、形态学等表型数据进行编码；4）跨模态融合，将冻结的预训练编码器特征投影至联合640维空间，由可训练分类器处理。此外，研究进行了人机对比观察者研究，七名资深临床医生（4名放射科医生，3名胸外科医生）基于NCCN 5点量表独立评估CT，并使用Delong检验、Bootstrap重采样等方法进行统计分析。

研究结果

患者与结节特征（Patient and nodule characteristics）

研究最终纳入1542名患者（中位年龄54.6岁，69.6%女性）的1707个pGGN。各数据集（训练、内部测试、外部测试）在年龄、性别分布上无显著差异，但在病理构成（如外部测试集IAC比例18.9%低于训练集27.7%）、结节体积、直径及CT扫描层厚上存在差异，反映了真实世界的异质性。

分类性能（Classification performance）

Lung-PNetV2模型在训练集、内部测试集和外部测试集的ROC-AUC分别为0.892、0.831和0.827，PR-AUC（精确率-召回率曲线下面积）分别为0.775、0.679和0.573。在外部测试集采用0.6概率阈值（对应NCCN评分4-5分为IAC）时，模型准确率为81.0%，灵敏度为67.7%，特异度为84.1%，宏F1值为72.5%，阴性预测值（Negative Predictive Value, NPV）高达91.8%。模型在不同结节大小亚组（5–10 mm, 11–20 mm, >20 mm）及不同CT扫描仪厂商（GE, Siemens, Philips等）间均表现出稳定一致的性能（AUC范围0.784–0.874）。

观察者研究（Observer study）

七名人类阅片者的ROC-AUC范围为0.681–0.722，显著低于模型的0.827（P < 0.01）。放射科医生平均AUC（0.746）和灵敏度（60.9%）高于外科医生（0.722和49.4%），但特异度（74.7%）低于外科医生（78.3%）。模型在灵敏度（67.7% vs 平均56.0%）和NPV（91.8% vs 88.5%）上均优于人类阅片者，宏F1值（72.5%）也显著优于大部分阅片者。人类阅片者间的一致性仅为一般（Fleiss kappa = 0.330）。

类激活图（Class activation maps）

通过3D Grad-CAM可视化显示，IAC病例的模型激活峰值位于结节边缘，与病理 stromal浸润和架构扭曲相关；MIA呈弥散激活；AIS呈中心激活。这表明模型能够定位与侵袭性相关的微环境改变。

讨论与结论总结

讨论部分指出，由于IAC与非IAC患者预后及手术方式不同，建立稳健模型预测pGGN侵袭性十分重要。Lung-PNetV2通过跨扫描仪标准化和多模态特征融合，克服了既往模型的限制，在区分IAC与非IAC方面优于人类专家，且在不同厂商CT设备上表现稳定。其二元分类（IAC vs 非IAC）较三元分类更具临床实用性，因为非IAC亚型（AAH/AIS/MIA）临床管理相似且预后极佳。模型均衡的指标（特别是91.8%的高NPV）有助于支持保守管理，减少过度治疗，同时及时识别IAC。研究局限性包括回顾性设计可能的选择偏倚，以及仅关注pGGN而未涵盖部分实性结节。未来需前瞻性试验验证。

结论：这项多中心研究验证了基于CT的深度学习模型Lung-PNetV2是区分pGGN中IAC与非IAC病变的稳健且可泛化的工具。其高NPV（91.8%）有助于避免惰性病例的不必要手术，均衡的诊断性能有助于及时识别需干预的IAC，可辅助临床医生制定更知情的风险分层决策。未来整合至PACS或结节分析插件中，可促进跨机构的规范化评估。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部