用于非小细胞肺癌诊断可信实施的保序化不确定性感知人工智能框架

时间:2026年6月24日
来源:Nature Biomedical Engineering

编辑推荐:

在癌症诊断中,确保可信性至关重要,因为误诊可能造成严重后果。当前病理人工智能(AI)模型缺乏系统性解决方案,以应对由模型局限性以及模型部署环境与开发环境之间数据差异所引发的可信性问题。该研究提出TRUECAM——一个旨在通过全视野图像(WSI)实现非小细胞肺癌

广告
   X   

在癌症诊断中,确保可信性至关重要,因为误诊可能造成严重后果。当前病理人工智能(AI)模型缺乏系统性解决方案,以应对由模型局限性以及模型部署环境与开发环境之间数据差异所引发的可信性问题。该研究提出TRUECAM——一个旨在通过全视野图像(WSI)实现非小细胞肺癌分型中数据可信性与模型可信性的框架。TRUECAM整合了:(1) 光谱归一化神经高斯过程(spectral-normalized neural Gaussian process, SNGP),用于识别超出适用范围的输入;(2) 模糊性引导的图块消除(ambiguity-guided tile elimination, EAT),用于过滤高模糊区域,从而解决数据可信性问题;以及 (3) 保序预测(conformal prediction, CP),用于保证受控错误率。研究人员使用任务特异性模型与基础模型(foundation models),在多个癌症数据集上系统评估了TRUECAM。计算实验表明,经TRUECAM封装后的模型在分类准确性、稳健性、可解释性、数据效率与公平性方面均持续优于未封装模型。上述结果确立了TRUECAM作为一种通用框架,可支持病理人工智能在真实世界场景中的负责任部署。
该论文发表于《Nature Biomedical Engineering》,聚焦数字病理中人工智能(AI)可信部署这一关键问题。研究背景在于,病理AI已在癌种识别、组织学改变检测和临床辅助决策中展现出显著潜力,但其真实应用仍面临一系列根本障碍。首先,常规模型通常只输出最可能类别,缺乏对预测不确定性的系统刻画,因此在面对边界样本、低质量区域或复杂病理形态时,容易给出表面确定但实际不可靠的结果。其次,模型训练环境与部署环境之间往往存在明显的数据分布差异,包括患者人群构成、疾病谱、染色流程、切片扫描设备及临床实践差异,这些因素会破坏模型泛化能力并降低结果可信度。再次,现有不确定性量化(UQ)方法虽然能够在一定程度上提供置信信息,但常常难以同时满足临床应用所要求的几个核心条件:识别分布内(In-D)与分布外(OOD)输入、控制真实错误率、允许对高风险样本进行拒判,以及在不显著增加计算成本的前提下提升可解释性。因此,研究人员开展本研究,目标是为非小细胞肺癌(NSCLC)全视野图像(WSI)分型构建一个形式化、可扩展、可部署的可信AI框架。

研究人员提出TRUECAM,即面向可信性的、具备不确定性感知能力且具有模型无关性的端到端癌症诊断框架。该框架将医学AI可信性分解为数据可信性与模型可信性两个层面:前者要求部署时输入数据处于模型训练适用范围内,并尽量排除会干扰判断的模糊区域;后者则要求模型输出满足可验证的覆盖保证,使真实标签以预设比例落入预测集合中。围绕这一目标,TRUECAM整合了三个关键模块:光谱归一化神经高斯过程(SNGP),用于构建保距的潜在表示并进行高效不确定性估计;模糊图块消除(EAT),用于去除对分型贡献有限但会增加噪声的区域;保序预测(CP),用于在统计意义上保证错误率可控。在OOD输入仍可能漏检的情形下,研究还结合保序风险控制(conformal risk control, CRC),以在复杂部署环境中维持覆盖有效性。研究结果显示,TRUECAM在NSCLC分型中显著降低错误率,并在准确性、稳健性、公平性、可解释性和推理效率方面系统优于基线方法;其优势不仅适用于Inception-v3等专用模型,也能迁移至UNI、CONCH、Prov-GigaPath和TITAN等病理基础模型。该研究的重要意义在于,它提出了一种可广泛嵌入不同病理AI架构的可信部署范式,使AI在临床中不再只是给出单一答案的刚性工具,而是能够识别自身局限、在高风险样本上主动拒判并与病理医生协同决策的可靠系统。

研究人员采用的关键技术方法主要包括以下几类。首先,利用TCGA、CPTAC及QMH-NSCLC队列构建NSCLC二分类评估体系,并引入另外5个非肺癌数据集验证可扩展性。其次,以SNGP对深度模型进行不确定性建模,并结合OOD检测与分布偏移控制(DSC)评估部署可靠性。再次,通过EAT基于熵度量剔除高模糊图块,降低弱监督噪声。最后,利用CP与CRC在患者层面构建预测集合并控制覆盖率与错误风险,同时在专用模型和病理基础模型、多种多实例学习(MIL)机制中系统比较性能。

在研究结果部分,论文依次从多个层面验证了TRUECAM的有效性。

一、An overview of TRUECAM
研究人员首先给出了TRUECAM的整体架构与评估框架。TRUECAM可包裹不同类型深度学习模型,通过SNGP在推理前识别OOD输入并缓解数据分布偏移,通过EAT在切片层面剔除高模糊区域,再借助CP在输出端生成具有覆盖保证的预测集合。研究基于两个主要NSCLC数据集开展实验,并同时评估专用模型与基础模型。结果显示,TRUECAM在所有模型类型中都显著降低了患者层面分型错误率;当覆盖目标设定为1 − α = 0.95和0.99时,Inception-v3经TRUECAM封装后错误率分别下降72.0%和93.8%。与此同时,TRUECAM可对困难样本执行拒判,将其转交病理医生处理;在模拟真实场景中,即使混入非肿瘤肺组织切片,TRUECAM也能在模型推理前稳定识别OOD输入,从而避免将其误分为肺腺癌(LUAD)或肺鳞癌(LUSC)。

二、Integration of distance-aware uncertainty estimation improves NSCLC subtyping performance
为评估距离感知不确定性建模的价值,研究人员比较了Deterministic、MC Dropout和SNGP三类Inception-v3模型,并暂时关闭CP与EAT。结果表明,SNGP在图块层面和患者层面均优于Deterministic与MC Dropout,在TCGA和CPTAC上均取得更高准确率与更高受试者工作特征曲线下面积(AUROC)。在患者层面,SNGP在TCGA上的平均准确率为0.875、AUROC为0.950,显著优于其余两种模型;在CPTAC上的提升更为明显。研究还与变分贝叶斯末层(VBLL)比较,SNGP同样表现更优。上述结果说明,通过光谱归一化维持潜在空间距离结构,并以高斯过程近似进行不确定性估计,能够提升模型对NSCLC亚型差异的表达能力与泛化稳定性。

三、Conformalized SNGP establishes statistical coverage guarantee while enhancing NSCLC subtyping efficiency
在激活CP后,研究人员评估了保序化SNGP的覆盖有效性与效率。按照CP定义,若预测集合大小为2,则表示模型无法在LUAD与LUSC之间做出确定判断,相当于拒判。结果显示,所有模型在不同α水平下都满足有效性要求,但保序化SNGP在TCGA和CPTAC上始终产生更小的预测集合,说明其效率更高。在患者层面,保序化SNGP产生了更多“单一且正确”的分类结果,同时维持与对照模型相近的“单一但错误”数量,表明其通过减少不必要的拒判而提高了临床可用性。研究进一步以确定性回答错误率(DA error rate)衡量模型在给出单一诊断时的可靠性,发现SNGP在引入CP前已具有最低错误率,而CP的加入又进一步显著降低这一指标。在α = 0.01时,SNGP的DA错误率降至1.9%,显示出TRUECAM可在保留高置信单一诊断能力的同时,对错误风险进行严格约束。

四、EAT concurrently augments classification and CP performance in NSCLC subtyping
针对全视野病理图像中大量非诊断性区域会稀释监督信号的问题,研究人员提出EAT。该方法先对SNGP生成的图块表示进行k-means聚类,再用标签分配熵评估聚类的亚型异质性,将熵最高、缺乏明确类别主导的簇视为模糊簇并予以去除。结果显示,模糊簇中的图块确实具有显著更高的不确定性,说明其在分型任务中主要增加歧义。研究人员在训练阶段去除了66.7%的训练图块,并在推理阶段同步剔除落入模糊簇的新图块,构建SNGP-EAT模型。与未应用EAT的SNGP相比,SNGP-EAT在TCGA和CPTAC上的患者层面准确率进一步提高;而随机去除相同数量图块的SNGP-RE则性能下降。EAT还提高了CP效率,产生更小预测集合和更多“单一且正确”的诊断结果。该结果表明,EAT并非单纯减少数据量,而是在“少而精”的原则下强化了训练信号与推理信息密度。

五、TRUECAM achieves fairer NSCLC diagnosis compared to other methods
在公平性分析中,研究人员考察了不同性别与种族亚组间的性能差距。结果显示,SNGP和SNGP-EAT不仅整体准确率更高,而且在Deterministic模型公平性差距较大时,还能显著缩小不同亚组间的准确率差异;在原本差距较小时,也能维持公平性稳定。尤其是SNGP-EAT在TCGA与CPTAC中均取得了最小的种族准确率差距。激活CP后,TRUECAM在预测集合大小这一不确定性相关指标上也表现出更好的公平性,性别与种族亚组间的集合大小差异均明显小于基线模型。说明TRUECAM不仅提升平均性能,也减轻了模型对不同人群输出不均衡置信度的问题。

六、TRUECAM enables effective OOD detection and distribution shift control
研究人员进一步检验了TRUECAM对OOD检测与分布偏移控制的能力。通过将TCGA正常邻近组织构建为临床相关OOD数据集,并与分布内数据混合,研究分别评估了基于概率和基于不确定性的OOD评分。对Inception-v3体系而言,SNGP-EAT的基于概率OOD评分区分In-D与OOD切片效果最佳,AUROC达到0.960。去除TRUECAM识别出的OOD样本后,模型经验覆盖率显著提高;若不进行OOD检测,则覆盖率仅为0.477,远低于目标0.95。为处理漏检OOD对覆盖造成的破坏,研究引入CRC,使模型在不同OOD比例下都能通过增加预测集合大小来维持接近目标的经验覆盖率。此外,研究还将OOD评分用于部署前检查,以实现分布偏移控制。结果显示,在将模型迁移至CPTAC这一外部数据集时,DSC能够提高分类准确率、AUROC并缩小CP预测集合,说明TRUECAM可在无法微调模型时辅助更安全的跨中心转移。

七、TRUECAM’s benefits extend to digital pathology foundation models
TRUECAM并不限于专用卷积网络,也适用于病理基础模型。研究将TRUECAM整合到UNI、CONCH、Prov-GigaPath和TITAN等模型中,对切片级分类进行了系统测试。结果表明,在不使用CP时,UNI-TRUECAM与CONCH-TRUECAM均显著提高患者层面分型准确率,同时通过EAT丢弃约60.0%的图块;Prov-GigaPath和TITAN则在仅保留40.0%图块时维持原有性能。激活CP后,TRUECAM使经验覆盖率更接近预设目标,并产生更小预测集合与更多“单一且正确”的结果。在基础模型场景下,TRUECAM的OOD检测能力更强,采用基于不确定性的OOD评分可获得更高AUROC;结合CRC后,在宽范围OOD比例下仍能维持良好覆盖。进一步比较发现,基于模糊性的图块去除在不同保留率下均优于随机去除,甚至在仅保留0.1%图块时也不损害分类准确率,显示EAT能够高度浓缩最具诊断价值的信息。

八、TRUECAM delivers efficient interpretation and inference
在可解释性方面,TRUECAM提供了两层互补解释结构:首先是图块级模糊性,用于指出哪些区域可能引入混淆并被剔除;其次是在EAT后剩余区域上生成全局注意力图,展示模型真正依赖的判别区域。研究邀请病理学家F.N.在未知模型输出的条件下标注LUAD与LUSC诊断相关区域,结果显示低模糊区域与病理学家标注高度一致,通常对应肿瘤上皮及亚型鉴别关键结构;高模糊区域则多为炎症、间质、坏死或非肿瘤肺实质,缺乏分型特异性。高注意力区域则呈现典型LUAD腺样结构或LUSC细胞间桥、角化及嗜酸性胞质等特征。定量分析表明,TRUECAM的注意力效率高于传统注意力机制。计算效率方面,SNGP版本Inception-v3的图块推理速度几乎与确定性模型相当,却约为MC Dropout的5倍;EAT进一步通过减少推理图块数量显著加快切片级推理,同时改善分类与CP性能。

九、TRUECAM shows strong scalability and generalizability in NSCLC subtyping and beyond
在外部真实世界队列QMH-NSCLC中,TRUECAM封装的专用模型在平衡准确率与加权F1评分上均优于未封装模型,同时推理所用图块减少38%。基础模型版本在16种情境中的15种取得更优结果,平均推理图块减少40%。进一步在5个非肺癌分型数据集上评估后,TRUECAM在专用模型场景下几乎全面提高平衡准确率与加权F1评分,并减少31.4%的推理图块;在基础模型场景下,性能提升不依赖具体MIL机制,在80种情境中的65种优于原模型。该结果证明TRUECAM对多类别、多器官、多复杂度病理任务具有良好的可扩展性与泛化性。

讨论部分指出,病理AI的可信性长期受制于模型在不确定性刻画、错误率控制及复杂部署环境适应方面的不足,而TRUECAM通过SNGP、EAT、CP与CRC的协同作用,为这一问题提供了系统性解决方案。其最直接价值是显著减少错误诊断,同时通过对高风险、模糊或OOD样本进行主动拒判,将复杂病例转交专家病理医生处理,形成更安全的人机协作模式。文章强调,TRUECAM不仅将模型使用限定在可信范围内,还提供了一条逐步扩展可信适用域的路径:病理医生可对被拒判或被判定为OOD的样本进行标注,并将这些新数据纳入后续不确定性建模流程,从而在反馈驱动下持续改进模型与误差界限。研究还指出,EAT体现了“更少数据、更好性能”的数据中心型AI思想,兼具降低计算负担、提升可解释性、缓解标注成本与改善公平性的多重作用。与此同时,作者也承认若干局限,包括尚未测试具备对话能力的新型病理模型、尚未充分解析外部数据集分布偏移的根源、尚未拓展至层级化组织分型流程,以及尚未在完整的人在回路临床场景中前瞻性评估。

研究结论部分可概括为:TRUECAM是一种面向病理人工智能可信部署的通用框架,能够同时提升数据可信性与模型可信性。该框架通过SNGP识别OOD输入并缓解分布偏移,通过EAT去除高模糊区域,通过CP与CRC提供具有统计保证的覆盖与错误控制。无论在NSCLC分型、真实世界外部队列,还是在多种非肺癌多分类任务中,TRUECAM均表现出稳定的准确性提升、错误率下降、推理成本降低、可解释性增强和公平性改善。综上,TRUECAM为不同规模、结构与用途的病理AI模型提供了可扩展、可泛化、可负责任应用的可信实现路径。

生物通微信公众号
微信
新浪微博


生物通 版权所有