四、EAT concurrently augments classification and CP performance in NSCLC subtyping 针对全视野病理图像中大量非诊断性区域会稀释监督信号的问题,研究人员提出EAT。该方法先对SNGP生成的图块表示进行k-means聚类,再用标签分配熵评估聚类的亚型异质性,将熵最高、缺乏明确类别主导的簇视为模糊簇并予以去除。结果显示,模糊簇中的图块确实具有显著更高的不确定性,说明其在分型任务中主要增加歧义。研究人员在训练阶段去除了66.7%的训练图块,并在推理阶段同步剔除落入模糊簇的新图块,构建SNGP-EAT模型。与未应用EAT的SNGP相比,SNGP-EAT在TCGA和CPTAC上的患者层面准确率进一步提高;而随机去除相同数量图块的SNGP-RE则性能下降。EAT还提高了CP效率,产生更小预测集合和更多“单一且正确”的诊断结果。该结果表明,EAT并非单纯减少数据量,而是在“少而精”的原则下强化了训练信号与推理信息密度。
五、TRUECAM achieves fairer NSCLC diagnosis compared to other methods 在公平性分析中,研究人员考察了不同性别与种族亚组间的性能差距。结果显示,SNGP和SNGP-EAT不仅整体准确率更高,而且在Deterministic模型公平性差距较大时,还能显著缩小不同亚组间的准确率差异;在原本差距较小时,也能维持公平性稳定。尤其是SNGP-EAT在TCGA与CPTAC中均取得了最小的种族准确率差距。激活CP后,TRUECAM在预测集合大小这一不确定性相关指标上也表现出更好的公平性,性别与种族亚组间的集合大小差异均明显小于基线模型。说明TRUECAM不仅提升平均性能,也减轻了模型对不同人群输出不均衡置信度的问题。
六、TRUECAM enables effective OOD detection and distribution shift control 研究人员进一步检验了TRUECAM对OOD检测与分布偏移控制的能力。通过将TCGA正常邻近组织构建为临床相关OOD数据集,并与分布内数据混合,研究分别评估了基于概率和基于不确定性的OOD评分。对Inception-v3体系而言,SNGP-EAT的基于概率OOD评分区分In-D与OOD切片效果最佳,AUROC达到0.960。去除TRUECAM识别出的OOD样本后,模型经验覆盖率显著提高;若不进行OOD检测,则覆盖率仅为0.477,远低于目标0.95。为处理漏检OOD对覆盖造成的破坏,研究引入CRC,使模型在不同OOD比例下都能通过增加预测集合大小来维持接近目标的经验覆盖率。此外,研究还将OOD评分用于部署前检查,以实现分布偏移控制。结果显示,在将模型迁移至CPTAC这一外部数据集时,DSC能够提高分类准确率、AUROC并缩小CP预测集合,说明TRUECAM可在无法微调模型时辅助更安全的跨中心转移。
七、TRUECAM’s benefits extend to digital pathology foundation models TRUECAM并不限于专用卷积网络,也适用于病理基础模型。研究将TRUECAM整合到UNI、CONCH、Prov-GigaPath和TITAN等模型中,对切片级分类进行了系统测试。结果表明,在不使用CP时,UNI-TRUECAM与CONCH-TRUECAM均显著提高患者层面分型准确率,同时通过EAT丢弃约60.0%的图块;Prov-GigaPath和TITAN则在仅保留40.0%图块时维持原有性能。激活CP后,TRUECAM使经验覆盖率更接近预设目标,并产生更小预测集合与更多“单一且正确”的结果。在基础模型场景下,TRUECAM的OOD检测能力更强,采用基于不确定性的OOD评分可获得更高AUROC;结合CRC后,在宽范围OOD比例下仍能维持良好覆盖。进一步比较发现,基于模糊性的图块去除在不同保留率下均优于随机去除,甚至在仅保留0.1%图块时也不损害分类准确率,显示EAT能够高度浓缩最具诊断价值的信息。
八、TRUECAM delivers efficient interpretation and inference 在可解释性方面,TRUECAM提供了两层互补解释结构:首先是图块级模糊性,用于指出哪些区域可能引入混淆并被剔除;其次是在EAT后剩余区域上生成全局注意力图,展示模型真正依赖的判别区域。研究邀请病理学家F.N.在未知模型输出的条件下标注LUAD与LUSC诊断相关区域,结果显示低模糊区域与病理学家标注高度一致,通常对应肿瘤上皮及亚型鉴别关键结构;高模糊区域则多为炎症、间质、坏死或非肿瘤肺实质,缺乏分型特异性。高注意力区域则呈现典型LUAD腺样结构或LUSC细胞间桥、角化及嗜酸性胞质等特征。定量分析表明,TRUECAM的注意力效率高于传统注意力机制。计算效率方面,SNGP版本Inception-v3的图块推理速度几乎与确定性模型相当,却约为MC Dropout的5倍;EAT进一步通过减少推理图块数量显著加快切片级推理,同时改善分类与CP性能。
九、TRUECAM shows strong scalability and generalizability in NSCLC subtyping and beyond 在外部真实世界队列QMH-NSCLC中,TRUECAM封装的专用模型在平衡准确率与加权F1评分上均优于未封装模型,同时推理所用图块减少38%。基础模型版本在16种情境中的15种取得更优结果,平均推理图块减少40%。进一步在5个非肺癌分型数据集上评估后,TRUECAM在专用模型场景下几乎全面提高平衡准确率与加权F1评分,并减少31.4%的推理图块;在基础模型场景下,性能提升不依赖具体MIL机制,在80种情境中的65种优于原模型。该结果证明TRUECAM对多类别、多器官、多复杂度病理任务具有良好的可扩展性与泛化性。