TITAN:基于Transformer的多模态全玻片病理基础模型实现精准癌症诊断与报告生成

时间:2025年11月6日
来源:Nature Medicine

编辑推荐:

本研究针对计算病理学中现有基础模型在处理全玻片图像(WSI)时面临的临床数据有限、跨模态理解不足等挑战,开发了多模态Transformer架构TITAN模型。通过视觉自监督学习和视觉-语言对齐技术,该模型利用33.5万张WSI和42.3万条合成标注进行预训练,实现在无需微调的情况下完成癌症分型、生物标志物预测、罕见病检索和病理报告生成等任务,在14项形态学分类和39项分子分类任务中显著优于现有模型,为零样本诊断和跨模态检索提供了新范式。

广告
   X   

在数字病理学快速发展的今天,组织切片的全玻片图像(Whole-Slide Images, WSIs)已成为癌症诊断和预后评估的重要工具。尽管基于区域兴趣(ROIs)的基础模型通过自监督学习能够编码具有可迁移性的特征表示,但将这些进展转化为解决患者和玻片级别的复杂临床挑战仍然受限于疾病特异性队列中有限的临床数据,特别是对于罕见临床表现。此外,现有的玻片基础模型多采用纯视觉预训练,忽视了病理报告中丰富的监督信号,且缺乏跨模态能力(如零样本视觉-语言理解和跨模型检索),同时由于训练样本数量级较少和自监督学习(SSL)方案优化有限,导致玻片表示泛化能力受限。
为了突破这些限制,来自哈佛医学院、麻省总医院和布列根妇女医院的研究团队在《Nature Medicine》上发表了Transformer-based pathology Image and Text Alignment Network(TITAN),这是一个专为组织病理学中通用玻片表示学习而设计的多模态全玻片视觉-语言模型。TITAN通过知识蒸馏和掩码图像建模的成功经验,引入了一种大规模预训练范式,利用数百万个高分辨率区域兴趣(ROIs)进行可扩展的WSI编码。该模型在包含33.5万张WSI和18.3万份医疗报告的Mass-340K数据集上进行预训练,涵盖20种器官类型,通过视觉自监督学习和与相应病理报告及PathChat生成合成标注的视觉-语言对齐,实现了无需微调即可提取通用玻片表示和生成病理报告的能力。
研究团队采用的关键技术方法包括:1)使用CONCHv1.5补丁编码器提取512×512像素补丁的特征;2)通过iBOT框架进行视觉only预训练,采用16×16特征区域作物(对应8,192×8,192像素区域);3)扩展ALiBi位置编码至二维以处理长序列外推;4)利用PathChat生成的42.3万条合成标注和18.3万份病理报告进行多模态预训练;5)在线性探测、少样本和零样本分类等任务上评估模型性能。
研究结果主要体现在以下几个方面:
Scaling SSL from histology patches to whole-slide images
TITAN采用Vision Transformer(ViT)架构,通过三个阶段预训练策略获得玻片表示:第一阶段视觉only预训练使用iBOT框架;第二阶段在ROI级别与合成标注进行跨模态对齐;第三阶段在WSI级别与临床报告进行对齐。结果表明,随着预训练数据量的增加,模型在四个具有挑战性的分型任务上性能平均提升3.65%,且参数量仅为48.5百万的TITAN优于参数量99.0百万的PRISM和86.3百万的GigaPath,显示出卓越的参数效率。
TITAN improves region and slide-level diagnostic capabilities
在包含形态学分类(14项任务)、分级(3项任务)、分子分类(39项任务)和生存预测(6项任务)的多样化临床任务评估中,TITAN平均表现优于其他玻片编码器。特别是在形态学分型任务中,TITAN across the entire spectrum of diagnostic complexities, including fine-grade pan-cancer classification and noncancerous tasks such as cardiac allograft assessment and renal allograft assessment。在分子分类任务中,TITAN显著优于使用相同CONCHv1.5特征的均值池化基线、GigaPath和CHIEF(P<0.0001)。
Comparison with different learning paradigms for slide encoding
通过比较不同学习范式(均值池化、基于注意力的多实例学习(ABMIL)、线性探测和任务特异性微调),发现TITAN的线性探测性能优于ABMIL,证明其自监督预训练有效捕获了玻片的上下文和语义形态学细节。任务特异性微调可进一步提高性能,表明预训练权重可作为良好的初始化。
Few-shot learning for low-data regime
在少样本学习设置中,TITAN across different tasks and the number of shots(P<0.0001),表现出强大的泛化能力。在one-shot学习中,TITAN和TITANv的表现与其他玻片编码器使用更多样本时相当,显示出卓越的数据效率。
Language-aligned TITAN enables cross-modal capabilities
通过视觉-语言对齐,TITAN具备零样本分类和跨模态检索能力。在13项分型任务的零样本实验中,TITAN显著优于PRISM(多类分类任务平衡准确率+56.52%,二类分型任务AUROC+13.8%)。在病理报告生成任务中,TITAN使用CoCa预训练策略,在TCGA-Slide-Reports数据集上通过METEOR、ROUGE和BLEU指标评估,性能大幅优于PRISM(平均提升161%)。
TITAN enables rare cancer retrieval and cross-modal retrieval
在罕见癌症检索任务中,TITAN在Rare-Cancer(186种癌症类型)、Rare-Cancer-Public(127种癌症类型)和Rare-Cancer-External(12种罕见癌症类型)三个数据集上均显著优于其他玻片编码器,在外部验证中显示出更强的域转移鲁棒性(Accuracy@K提高30.8%)。在跨模态检索方面,TITAN在slide-to-report和report-to-slide检索任务中的Recall@K表现均优于PRISM。
研究结论表明,TITAN作为一个多模态全玻片基础模型,通过结合视觉only和视觉-语言预训练策略,能够产生强大的通用玻片表示,在多种下游任务中优于现有最先进的玻片编码器。这种优势在数据受限的设置(如罕见疾病分类和组织学玻片检索)中仍然保持,强调了TITAN表示质量的优越性。与细粒度(ROI标注)和粗粒度(病理报告)描述的对齐对于处理组织玻片中固有的多尺度信息至关重要。尽管TITAN表现出令人鼓舞的性能,但研究团队也指出了其局限性,如在8k×8k区域作物上预训练并通过ALiBi外推到整个WSI可能仍无法捕获完整的上下文信息,以及补丁基础模型容易编码非生物特征等问题。未来通过数据量和架构的扩展,TITAN有望进一步改善性能,并融入从业者的日常工具包中,用于常规应用和与其他任务特异性监督框架的比较。

生物通微信公众号
微信
新浪微博


生物通 版权所有