综述:计算病理学中的基础模型:方法、应用及临床意义

时间:2026年5月19日
来源:BMJ Oncology

编辑推荐:

摘要 组织病理学的数字化加速了人工智能(AI)在癌症诊断和精准肿瘤学中的应用;然而,大多数已部署的AI系统仍然具有高度任务特异性,难以在不同临床环境中进行迁移。基于病理学的基础AI模型作为一种统一范式正在出现,通过大规模预训练学习组织的通用形态表示,并支持广泛的下游任务。在这篇叙

广告
   X   

摘要
组织病理学的数字化加速了人工智能(AI)在癌症诊断和精准肿瘤学中的应用;然而,大多数已部署的AI系统仍然具有高度任务特异性,难以在不同临床环境中进行迁移。基于病理学的基础AI模型作为一种统一范式正在出现,通过大规模预训练学习组织的通用形态表示,并支持广泛的下游任务。在这篇叙述性综述中,我们探讨了病理学基础模型在肿瘤病理学中的发展、方法论基础和当前现状。我们概述了该领域的演变和主要趋势,分类了主要模型类型和模式,并评估了它们与传统病理学AI系统相比的能力和优势。我们还研究了从基础模型向自主AI模型的转变及其对集成化、工作流感知的病理实践的影响。此外,我们回顾了相关的监管和治理框架,特别关注了验证、问责制、透明度和监督方面的要求。

引言
基于人工智能(AI)框架的病理学基础模型(PFMs)正在推动诊断病理学的范式转变,使该领域从高度优化的任务特定AI转向通用的组织形态计算表示,即PFMs。自19世纪鲁道夫·维尔肖建立细胞病理学原理以来,癌症的最终诊断一直依赖于组织学玻璃片的显微镜检查。这种诊断范式在一个多世纪内基本保持不变,直到21世纪初,全切片成像(WSI)扫描仪的商业化引入,使组织病理学进入了完全数字化的领域。在过去十年中,扫描仪分辨率和图像质量的提高,加上数据传输的增强、存储容量的扩大以及成本的下降,促进了数字病理学的广泛采用,将组织学转变为适合大规模计算分析的数据丰富资源。与此同时,AI作为一种强大的自动化组织病理学分析工具应运而生,早期的成功主要归功于卷积神经网络(CNN)等深度学习架构。这些为特定任务设计的模型在肿瘤检测、分级和细胞量化等狭义应用中表现出稳健的性能。然而,它们的临床可扩展性受到对监督学习和专家注释的严格依赖的限制,在实际条件下表现出较大的脆弱性。扫描仪硬件、染色协议和实验室工作流程的变异性可能导致性能显著下降,而密集的、由病理学家生成的注释需求对于罕见癌症和代表性不足的肿瘤亚型尤其形成了注释瓶颈。

传统的病理学AI方法主要集中在为个别诊断任务优化专用模型。在过去十年中,已经开发了许多针对临床应用的特定任务AI平台,涵盖诊断、预后和治疗反应预测。尽管病理学AI迅速发展,但只有三种产品获得了美国食品药品监督管理局(FDA)的临床使用授权,通过510(k)批准或De Novo途径。其中两种产品,Paige AI(通过De Novo途径获得授权)和Ibex(通过510(k)获得批准),专注于前列腺癌诊断,并通过突出显示恶性区域来支持检测。ArteraAI前列腺平台独特之处在于它获得了FDA的De Novo授权,使用前列腺活检样本和补充临床数据对前列腺癌进行预后风险分层,支持治疗计划的临床决策。相比之下,绝大多数病理学AI平台仍未获得临床使用授权,包括PathAI(仅用于研究的乳腺、胃肠道和肝脏特定模型)、Proscia/Concentriq AI(用于工作流和决策支持的肿瘤特定模型)、NovinoAI(前列腺、胃肠道、尿液细胞学模型以及工作流改进模型)、Aiforia(具有欧洲 conformity(CE)标志的乳腺、皮肤、胃肠道和肾脏模型)、Deep Bio(具有CE标志的前列腺、乳腺和胃癌检测模型)以及Ibex(具有CE标志的乳腺和胃肠道模型)等。

PFMs通过将学习目标从任务级监督转变为大规模自我监督和弱监督的表示学习来克服这些系统性限制。通过在涵盖多种组织、技术和条件的数百万张未标注或最小标记的WSI上进行预训练,这些模型学习了可转移的、与任务无关的嵌入,编码了通用的组织形态模式。这种策略大大减少了对手动注释的依赖,提高了对技术异质性的鲁棒性,并能够使用相对有限的标记数据高效适应多种下游任务。PFMs不是为单一诊断目标优化的,而是作为可重用的计算基础设施,在统一框架内支持癌症检测、亚型分类、生物标志物预测和预后。虽然PFMs在包括放射学、基因组学和多模态临床预测在内的多个肿瘤学领域得到了越来越多的探索,但本综述特别关注它们在计算病理学(CPath)中的发展和应用,特别是使用WSI的组织病理学图像分析。我们详细介绍了综述的设计和范围,描述了文献搜索策略,并概述了纳入和排除标准、研究选择、数据提取和综合方法。在结果和证据综合部分,我们提供了PFMs的概述,包括它们的技术基础、演变、主要趋势、模型类型和能力。我们进一步探讨了从基础模型向自主AI模型的转变,并讨论了它们整合到临床工作流中的潜力。还讨论了监管和治理方面的考虑,以将这些模型的临床转化置于适当背景中。最后,我们批判性地分析了它们的局限性和转化挑战,为未来研究和负责任地采用数字病理学中的基础模型提供了基础。

方法
综述设计和范围
本研究是一项叙述性综述,综合了应用于癌症诊断的数字病理学中PFMs的最新发展,以调查:(1)概念进展,(2)模型设计选择,(3)转化影响。我们重点关注通用预训练模型,特别是视觉、视觉-语言、多模态和新兴的自主框架。

文献搜索策略
在PubMed、Europe PMC、ClinicalKey和Cochrane系统评价数据库中进行了结构化的文献搜索,后者主要用于背景参考文献。搜索范围涵盖了2023年1月至2025年12月的出版物,这段时间PFMs迅速出现并成熟。搜索策略围绕三个核心概念领域设计:数字病理学、基础模型和肿瘤学应用。在每个领域内,结合了相关关键词和控制词汇术语以捕捉术语的变化。与数字病理学相关的概念包括WSI和组织病理学;基础模型概念包括大型预训练的仅视觉模型、视觉-语言模型和多模态架构;临床应用术语则关注癌症诊断、分类、预后和分子或生物标志物预测。为了确保全面覆盖新兴的多模态方法,还增加了额外的术语,以识别将病理学与其他数据模式(如放射学-病理学融合和图像-文本建模)结合的研究。手动筛选了纳入文章的参考列表,以识别数据库搜索未捕获的其他相关研究。

随着模型名称和术语在出版物中的演变,搜索词进行了更新,以包括新识别的模型名称和架构描述符,以确保全面覆盖。手动筛选了关键基础模型出版物的参考列表(包括Universal Network for Imaging (UNI)、Clinical Histopathology Imaging Evaluation Foundation model (CHIEF)、Contrastive learning from Captions for Histopathology (CONCH)、Virchow、Transformer-based pathology Image and Text Alignment Network (TITAN)及相关多模态模型),以识别其他相关研究。这种搜索策略旨在支持代表性且有影响力的基础模型的叙述性综合,而不是进行详尽的系统评价。

纳入标准
如果研究满足以下所有标准,则被纳入本综述:(1)2023年1月至2025年12月之间的出版物;(2)发表在同行评审期刊或会议论文集中的原创研究文章;(3)主要关注数字或CPath,或包含病理数据的多模态AI模型。此外,符合条件的研究需要报告至少一个与基础或多模态模型开发相关的预定义结果。

排除标准
如果研究符合以下任何条件,则被排除:(1)使用未经大规模预训练或不具备基础模型特征的常规监督、任务特定模型;(2)仅关注基于放射学的应用,不整合或与病理数据无关;(3)研究与癌症无关的非肿瘤学应用;(4)仅展示技术或方法学演示,缺乏对实际病理数据集的评估;(5)以综述文章、社论、评论或意见文章的形式发表;或(6)以非英语语言发表。

研究选择和数据提取
由多位病理学、AI和肿瘤学领域的专家独立筛选标题和摘要的相关性。符合预定义纳入标准的研究进行了全文审查。对于每项纳入的研究,使用标准化框架系统提取数据,包括:(1)模型架构和模式(仅视觉、视觉-语言或多模态);(2)训练数据特征,包括数据类型、规模和监督策略;(3)主要诊断、预后或预测应用;(4)报告的性能特征,包括评估数据集和性能指标;(5)报告的局限性和转化考虑,包括可解释性或可解释性方法以及声明的转化意图(仅研究、工作流支持或诊断用途)。

综合方法
根据概念方法、适用范围、技术设计、临床相关性和报告的局限性对模型进行了分组。表1-3提供了通过文献搜索识别的代表性PFMs和多模态模型的结构化比较总结。虽然正文侧重于选定的示例,但表格还包括未深入讨论的模型,以便更广泛地涵盖快速发展的研究领域。模型按模式分组并按时间顺序排列,以说明模型规模、架构复杂性和下游任务范围的趋势。每个模型的扩展总结,包括架构细节、训练规模和评估基准,在在线补充表1中提供。

结果和证据综合
在本文中,我们的讨论集中在为计算病理学工作流设计的PFMs上,其中表示学习通常在数字化的组织病理学图像上进行,并汇总用于下游切片级或病例级任务。一般来说,CPath中的PFMs采用两阶段训练范式(图1)。第一阶段涉及在大型异构数据集上对基于Transformer的架构进行任务无关的预训练,这些数据集通常包括数千到数百万张来自不同组织类型和染色协议的WSI,也可能包含病理报告和分子谱型等补充数据模式。这种预训练通常依赖于自我监督学习(SSL),使模型能够在没有大量手动注释的情况下提取丰富的、可泛化的特征。在第二阶段,预训练的嵌入被微调或适应特定的下游应用,如癌症检测、肿瘤亚型分类、生物标志物评估和预后预测。

图1
病理学基础模型的两阶段训练范式:在未标记数据上进行的大规模自我监督预训练以学习通用组织表示(步骤1),然后用最小标记数据进行任务特定的微调以用于临床下游应用(步骤2)。

为了理解这些能力是如何实现的,首先需要回顾支持PFMs开发的技术原理。

PFMs的技术方面概述
本节概述了支持对基础模型共同理解所需的基本技术概念,为来自不同学科的读者提供了足够的背景,以便理解后续部分的内容。

数字病理学中的自我监督学习
SSL是现代基础模型开发的基础,使得无需依赖详尽的专家注释即可进行大规模表示学习。在数字病理学中,由于WSI数量庞大且详细专家标签稀缺,SSL特别具有影响力。在SSL中,监督信号来自数据的内在结构,通过预设任务获得,使模型能够有效利用未标记的图像库。这种方法非常适合病理学,因为在病理学中,手动注释成本高昂、耗时、容易出错且通常在大规模上不可行,而组织学切片在多个空间分辨率上表现出丰富的形态模式。通过学习不变且可转移的表示,基于SSL的模型提供了可以适应各种下游诊断、预后和预测任务的稳健初始化。

数字病理学中的对比学习
对比学习是一种广泛使用的SSL策略,在数字病理学的基础模型开发中发挥了关键作用。其核心思想是通过在嵌入空间中使语义相似的样本更接近,同时将不相似的样本分开。实际上,这是通过构建正样本对(如来自同一组织切片的替代增强或空间相关区域)和来自无关图像的负样本对来实现的。通过优化这些关系,模型能够学习到捕捉基本形态模式的不变特征。CPath中的几种病理特征模型(PFMs)利用对比预训练来提高在不同数据集和机构中的泛化能力,这突显了其在实际临床场景中的实用性。20 21 23

数字病理学中的掩码图像建模(Masked Image Modeling, MIM)24是一种自监督学习(SSL)策略,其中一部分图像块或标记被屏蔽,模型被训练从剩余的可见上下文中重建缺失的内容。这一目标鼓励学习能够捕捉局部形态和更广泛空间依赖性的上下文表示。在CPath中,MIM主要使用基于变换器的架构来实现,这些架构非常适合对数百万像素的Whole Slide Images(WSIs)进行长距离关系建模。实际上,MIM为对比学习方法提供了互补的好处,这两种范式通常会产生不同但部分重叠的特征表示。25

全切片级别的表示学习由于WSIs具有数百万像素的分辨率和复杂的组织结构,因此对表示学习提出了独特的挑战。为了解决这个问题,PFMs通常将WSIs分割成较小的块或瓦片,然后使用自监督策略(如对比学习或MIM)提取特征嵌入。这些块级别的嵌入随后通过基于注意力的池化、图表示或分层编码器等方法进行聚合,以产生能够捕捉局部形态细节和全局组织上下文的切片级别表示。这种多尺度策略使基础模型能够在不同的组织学模式下进行泛化,支持广泛的下游任务。26 27

视觉变换器(Vision Transformers, ViTs)已成为计算机视觉中的通用架构,并且由于它们能够模拟高分辨率图像中的长距离空间依赖性,在CPath中越来越被采用。与依赖于局部感受野和分层特征聚合的CNN不同,ViTs将图像分割成固定大小的块,并使用自注意力机制来捕捉局部和全局组织上下文之间的交互。对于WSIs来说,这种全局感受野特别有利,因为诊断和预后相关的特征可能跨越多个空间尺度和解剖学上相距较远的区域。当与SSL范式结合使用时,ViTs使PFMs能够学习到高维的、可迁移的特征表示,这些表示将细粒度的细胞形态与更广泛的组织结构结合起来,支持在各种下游任务中的稳健性能。23 25

数字病理学中的多模态对齐指的是计算框架,它们联合建模异构的生物医学数据模态——包括组织病理学WSI、病理报告、放射成像、基因组学和其他组学谱型以及结构化的临床数据——以学习共享或协调的表示空间。28 29 通过跨模态对齐嵌入,这些方法能够整合互补的、非冗余的信息,使模型能够捕捉到仅从单模态数据中无法恢复的组织形态、分子改变和临床背景之间的关联。多模态对齐通常通过最大化配对样本之间一致性的对比学习目标来实现(例如,图像-报告或图像-基因组谱型),以及通过跨模态注意力和融合架构在特征和标记级别建模模态间依赖性。这些策略支持一系列下游任务,包括跨模态检索、分类和生存建模,同时实现临床相关的应用,例如直接从组织形态预测分子亚型或突变状态,并将基于图像的预测与可解释的文本或临床特征联系起来。

病理基础模型的类型可以根据它们处理的输入数据类型和支持的任务范围进行组织。大致上,它们分为三类:仅视觉模型,这些模型仅从组织病理学图像中学习;视觉-语言模型,这些模型将图像与文本病理报告结合起来;以及专门的多模态模型,这些模型将组织学与其他数据类型(如基因组学或放射学)结合起来。这种分类为结构化文献、比较架构设计、预训练策略、数据要求和CPath及精准肿瘤学中的下游应用提供了实用的框架。

仅视觉的病理基础模型代表了该领域大规模表示学习的第一个前沿,它们仅操作组织病理学图像,如WSIs或高分辨率图像瓦片(表1)。为了规避手动专家标注固有的注释瓶颈,这些模型使用SSL从庞大的未标注切片库中内化人类组织的复杂形态语言。方法上,该领域已经从早期的对比学习框架(如SimCLR和MoCo)发展到更先进的自蒸馏方法(如DINOv230和MIM)。24 这些现代方法鼓励模型重建缺失的组织片段或匹配全局到局部的裁剪,从而深入理解空间异质性。在架构上,已经从传统的CNN向ViTs发生了显著转变。

UNI/UNI2是由Chen等人引入并在2024年发表在《自然医学》(Nature Medicine)上的一种通用PFM。27 由Mahmood实验室开发的UNI是第一个设计用于广泛处理CPath任务的基于视觉的基础模型。它使用SSL在“Mass-100K”数据集上进行预训练,该数据集包含来自100,426张诊断性H&E染色WSIs的超过1亿个图像块(>77 TB),涵盖了20种主要组织和器官类型,数据来自大型公共队列,如癌症基因组图谱(TCGA)、前列腺癌分级评估(PANDA)和淋巴结中的癌症转移(CAMELYON)。该模型采用Vision Transformer-Large架构(ViT-L/16)作为骨干,并使用DINOv2框架进行自蒸馏预训练。在包括癌症分类、疾病亚型分类、组织和器官分类以及移植评估在内的34项下游临床任务中,UNI的表现优于之前的最先进模型,如CTransPath和REMEDIS。它实现了CPath中的新功能,包括不依赖于分辨率的组织分析、超出块聚合的切片级别预测以及多达108个OncoTree类别的广泛癌症亚型分类,同时在罕见和诊断上具有挑战性的癌症类型上也表现出强劲的性能。27 2025年1月,Mahmood实验室发布了基于Vision Transformer-Giant架构(ViT-H/14)的UNI2(UNI2-h)的升级版本。UNI2在来自超过350,000张不同H&E和免疫组化切片的2亿多个图像瓦片上进行了预训练,与原始UNI相比,性能得到了持续提升,包括在TCGA统一肿瘤分类任务上的更高准确性(0.675 vs 0.595),并且在复杂任务(如子宫内膜癌分子亚型分类)上的外部验证中显示出强大的性能,报告的曲线下面积(AUC)为0.780。

Virchow/ Virchow是专为CPath开发的最大的仅视觉基础模型之一,由Paige和微软研究院合作创建。31 该模型使用SSL在大约150万张来自不同组织和样本类型的H&E染色WSIs上进行预训练。Virchow采用基于瓦片的表示学习策略,其中从WSIs中提取的小图像块通过深度特征提取器处理,生成编码组织形态信息的高维嵌入。这些嵌入可以聚合起来支持下游分类器,实现细胞级别和组织级别任务的应用,包括分类、分割和形态驱动的分析。在基准测试实验中,Virchow在泛癌症检测中表现出强劲的性能,并在几种罕见癌症类型中实现了高区分度准确性,报告的接收者操作特征曲线下面积(AUROC)值接近0.95。Virchow2通过采用更大的ViT-H/14视觉变换器架构并大幅扩展预训练数据来扩展这一框架。32 更新后的模型在额外的约310万张WSIs上进行了训练,涵盖了多种扫描放大倍数(5×、10×、20×和40×),从而增强了多尺度表示学习。在大规模比较评估中,Virchow2在TCGA、临床蛋白质组肿瘤分析联盟(CPTAC)和多个外部队列的41项下游任务中取得了最高的整体性能,包括形态分类、生物标志物预测和预后建模。早期的基准研究报告了相对较低的排名,33 随后的分析发现尽管预训练数据的规模很大,但在某些设置中仍存在性能下降。

视觉-语言基础模型(Vision-Language Models, VLMs)通过将组织病理学图像与自然语言描述对齐,弥合了视觉形态和临床语义之间的基本差距。这类模型通常在从医学文献和诊断报告档案中策划的庞大图像-标题对数据集上进行预训练(表2)。技术上,这些模型采用双编码器架构,包括视觉编码器(例如ViT)和文本编码器(例如Bidirectional Encoder Representations from Transformers (BERT)或Robustly Optimised BERT Pretraining Approach (RoBERTa))。特定于模态的编码器通过投影头将图像(例如WSI瓦片)和文本(例如病理报告)映射到共享的嵌入空间。模型使用对比损失(例如InfoNCE)进行训练,该损失最大化匹配的图像-文本对之间的缩放余弦相似性,同时最小化批次内不匹配对之间的相似性,从而在模态之间对齐语义相关的表示。在训练过程中,文本通过子词分词和掩码语言建模进行处理,以捕捉复杂的医学语法。这种跨模态对齐使模型能够将特定的视觉模式(如腺体拥挤)与其相应的医学术语关联起来。语言的整合使模型具备了变革性能力,包括零样本分类,即模型可以通过文本提示识别新的疾病状态,而无需进行任务特定的微调。此外,VLMs促进了跨模态检索和视觉问答,提供了一个交互式界面,病理学家可以通过自然语言查询模型关于特定组织学特征的信息。

CONCH34是一种多模态视觉-语言基础模型,使用对比、任务无关的预训练在大约117万对组织病理学图像-文本对上进行训练。训练语料库整合了来自公开来源的配对数据,包括PubMed Central Open Access子集、TCGA、CPTAC和手动策划的生物医学图像-标题数据集。在架构上,CONCH遵循双编码器范式,包括一个视觉编码器和一个文本编码器,它们被训练将图像和相应的标题投影到共享的嵌入空间中,从而实现跨模态检索和表示学习。与生成式多模态模型不同,CONCH不依赖于融合解码器,而是使用对比目标来对齐模态。通过利用自然语言监督,CONCH捕获了超越纯视觉特征的丰富语义表示,从而在包括分类、检索和弱监督预测在内的各种下游任务中提高了性能。在最近的一项大规模基准研究中,CONCH在多种评估任务中展示了最高的整体性能,突显了多模态预训练在CPath中的实用性。33

TITAN29是一种多模态的全切片基础模型,它在335,645张涵盖20种器官和组织类型的WSIs上进行预训练,这些WSIs配备了182,862份匹配的病理报告和423,122条使用多模态生成AI工具为病理学生成的合成标题。该模型通过结合自监督视觉学习和视觉-语言对齐来学习切片级别表示,从而能够从超大型WSIs中提取稳健的嵌入,而无需依赖计算密集型的下游多实例学习框架。通过整合视觉特征和文本信息,TITAN可以生成通用的切片表示并生成自动化的病理报告,促进AI辅助的诊断文档编制,并无缝集成到临床工作流程中。TITAN的一个显著优势是它适应资源有限的临床环境和罕见疾病场景的能力,在这些环境中注释数据稀缺,即使在具有挑战性或数据量少的情况下也能进行准确的切片级别推断和报告生成。

当前该领域的前沿是专门的多模态基础模型,它们超越了简单的图像-文本对,整合了全面的临床和分子数据(表3)。这些模型旨在通过将组织病理学与基因组学、转录组学和纵向电子健康记录(EHR)数据结合起来,复制整体的诊断过程。通过使用融合技术,如跨注意力机制或多模态嵌入对齐,这些框架可以联合处理从多基因风险评分到详细患者历史的异构数据类型。像Multimodal Self-TAught PRetraining (mSTAR)和EXAONE Path 2.5这样的模型体现了这种方法,它们将全切片组织学与分子和临床数据结合起来,生成能够支持复杂任务(如疾病亚型分类、生物标志物预测、治疗反应预测和生存估计)的集成患者级别表示。这些专门模型作为集成诊断引擎,通过将组织形态置于患者的更广泛的临床和生物学背景中,解决了早期迭代的主要限制。因此,它们将计算病理学推向了个性化医疗的实现,其中诊断和治疗决策是由患者的全部分子、组织和临床数据决定的。

mSTAR是一种多模态PFM,旨在整合超出组织学本身的补充临床信息。35 与仅依赖视觉预训练不同,mSTAR结合了三种不同的数据模态:全切片H&E图像、专家编写的病理报告和基因表达谱型,在一个统一的自监督框架中。其预训练数据集包括来自TCGA和其他来源的32种癌症类型的26,169个切片级别的多模态对,代表了超过1.16亿张病理学块图像。该架构结合了滑动级对比学习阶段,该阶段能够跨模态对表示进行对齐,以及随后的补丁级“自我学习”训练阶段,在此阶段,滑动级学习到的多模态上下文被传播到补丁特征提取器中,从而实现全面的整张切片和多模态表示。在涵盖病理诊断、分子预测、报告生成、生存预测、多模态融合和零样本分类的97项肿瘤学任务中,mSTAR的表现优于最先进的仅基于视觉的模型,证明了整合多模态临床数据可以在不需要更大规模仅基于视觉的数据集的情况下显著提升基础模型的性能。

EXAONE Path 2.5是一种先进的多模态病理图像分析(PFM)技术,它明确整合了组织学和多组学数据,以比仅基于图像的方法更丰富地捕捉癌症的生物学特征。与传统仅基于视觉的架构不同,EXAONE Path 2.5同时建模了全切片图像(WSI)与基因组学、表观遗传学和转录组学数据,生成了反映肿瘤生物学特性的统一表示,这些特性涵盖了形态学和分子层面。其架构包含三项关键创新:一种用于语言-图像预训练的多模态Sigmoid损失函数(SigLIP),可实现异构数据类型之间的成对对比对齐;一个考虑碎片的旋转位置编码模块,能够保留WSI中的空间结构和组织拓扑;以及针对WSI和RNA测序数据的领域专用内部基础编码器,这些编码器生成了生物学上可靠的嵌入,以实现稳健的多模态对齐。EXAONE Path 2.5在包含23,099名患者及其配对影像和组学测量的多模态队列上进行了训练,在内部临床基准测试和涵盖80项任务的公共Patho-Bench套件中,其性能与领先的单模态和多模态病理模型相当或更优。这些结果突显了基于生物信息的多模态设计在将基因型与表型联系起来以推进下一代精准肿瘤学方面的价值。

基础模型的优势与能力
病理学中基础模型的优势包括:
(1) 可扩展性和可转移性:由于使用带有整张切片标签的大型多样化数据集进行模型训练,因此可以适应许多不同的病理学任务,减少了对每个新任务进行昂贵且劳动密集型手动注释的需求。
(2) 多功能性:从基本组织分类到复杂的癌症亚型分类,PFM提供了一个统一的“骨架”,可以标准化工作流程并加速CPath工具的开发。
(3) 在数据量少或罕见疾病环境中的效率:少样本/低标签性能意味着它可以泛化到罕见疾病、不常见的组织类型或资源有限的环境中,这些环境中标记数据稀缺。
(4) 桥接研究与临床应用:滑动级能力和对分辨率的适应性使得该技术更接近实际病理学应用,因为在实际应用中WSI和不同的分辨率是常态。

多模态图像智能:病理学和放射学AI
最近在AI领域的研究越来越多地将癌症诊断视为一个多模态问题,其中放射学AI和病理学AI提供互补的信息,而不是竞争性的解决方案。放射学AI提供宏观的、体内的肿瘤特征,如空间范围、异质性和时间演变,而病理学AI则提供与细胞形态、组织结构和肿瘤微环境相关的微观特征。综述的基准测试和基础模型研究表明,整合这些模态可以通过将全器官成像表型与细胞级组织模式联系起来来改善癌症检测、亚型分类、预后分层和生物标志物预测。在这个框架下,像Virchow和UNI这样的PFM作为多模态方法的关键推动者,它们学习到了稳健且可泛化的组织表示,可以下游与放射学、临床和分子数据集成。已经开发了多模态深度学习模型,这些模型联合分析放射学影像(例如CT或MRI)和数字化组织病理学,以改进肿瘤分级、生存预测和治疗反应评估,其性能始终优于单模态方法。此外,还有研究专注于放射学病理学配准,将组织学真实情况与体内影像对齐,以增强肿瘤定位和影像解释。同样,在放射学领域开发的通用视觉基础模型也作为宏观成像表型的补充编码器。尽管所研究的案例没有实现端到端的放射学和病理学融合系统,但它们指出了朝着可互操作的肿瘤学AI生态系统发展的明确方向,在这种系统中,特定模态的基础模型作为集成癌症特征的共享构建块。总体而言,文献表明,将宏观放射学特征与微观组织表示结合起来能够更全面地描述肿瘤生物学特征,同时主要作为研究和决策支持工具,而不是独立的诊断系统。

从基础模型到自主AI系统
病理学基础模型和自主AI是互补的,因为PFM提供了一个可泛化的表示层,而自主框架则实现了任务执行和系统级交互(图2)。在这种架构中,无论是仅基于视觉的还是多模态的基础模型,都充当特征编码器和语义解释器,将高维的组织学影像及相关临床文本转换为结构化表示。这些表示通过大规模预训练捕获了形态模式、上下文关系和跨模态关联。

然而,PFM本质上是被动的:它们不会主动发起行动或维持目标。自主系统通过将这些模型嵌入到包括状态跟踪、任务规划和工具使用的决策循环中来操作这些模型。在这种情况下,代理查询PFM以提取临床相关的特征(例如肿瘤形态、生物标志物表达或空间模式),并将这些输出与外部系统(如实验室信息系统(LIS)、数字切片存储库或报告平台)集成。此外,自主AI将这些整合的信息转化为实际行动——例如病例分诊、辅助测试推荐或报告生成——从而弥合了表示学习与可执行临床工作流程之间的差距。

从被动预测到主动自主
这一演变中的一个关键区别是从反应式的单步预测转变为主动的多步骤自主。传统的AI模型基于线性的“输入到输出”方式运行——例如,接收一个组织切片并返回恶性肿瘤的概率分数。相比之下,自主病理学AI是目标导向的,而不是输入驱动的。当被赋予一个广泛的目标(例如“确认这种转移性癌的原发部位”时,自主系统不会简单地提供一个标签。相反,它会制定一个多阶段计划:它可能首先使用视觉-语言模型来识别最具代表性的区域,自主触发虚拟染色模块来评估特定蛋白质表达,最后将这些发现与泛癌症数据库进行交叉参考。这种自我纠正和迭代改进的能力使系统能够解决传统基础模型通常会遇到的诊断歧义。

自主系统在病理学中的临床应用
自主系统的部署为病理学工作流程带来了变革性的效率提升,远远超出了简单的图像分析。在预诊断阶段,代理可以作为自主的分诊引擎,在切片数字化后立即识别出关键病例(如移植排斥或坏死性筋膜炎),并将它们提升到病理学家工作列表的顶部。在诊断阶段,自主AI作为协作助手,能够进行自动质量控制;它可以检测到组织折叠或染色不良等技术伪影,并在人类查看病例之前自动请求重新扫描或重新染色。此外,在精准肿瘤学中,这些系统可以合成复杂的多模态数据来协助临床试验匹配。通过自主“读取”组织学切片和患者的基因组谱型,代理可以识别出适合靶向治疗的候选者,并起草一份全面的综合报告,显著减轻临床团队的认知负担并加快治疗时间。

监管和治理框架
包括世界卫生组织(WHO)和经济合作与发展组织(OECD)在内的多个国际组织已经制定了AI治理的指南和建议。WHO提供了非约束性但具有全球影响力的指导,并推荐了六项核心原则:保护人类自主权;促进人类福祉和安全;确保透明度和可解释性;促进责任和问责制;确保包容性和公平性;以及促进响应性和可持续的AI(WHO,《人工智能在健康领域的伦理与治理》,2021年)。同样,OECD制定了一个全球参考框架,代表了首个可信AI的国际标准,该标准已被欧盟(EU)、美国和其他71个司法管辖区采纳。OECD推荐的五项原则与WHO的原则高度一致,包括包容性增长、可持续发展和福祉;以人为中心的价值观和公平性;透明度和可解释性;稳健性、安全性和安全性;以及问责制(OECD,《AI原则》,2024年)。这一框架体现了“良好AI社会”的愿景,在这种社会中,AI的开发、治理和使用造福人类,尊重人权并最小化伤害。

在欧盟,AI产品受到医疗器械法规(MDR)和体外诊断法规(IVDR)以及欧盟AI法案(2024年)的监管。大多数用于诊断、预后和预测的放射学和病理学AI产品被归类为MDR下的IIa–III类或IVDR下的C/D类。合规性要求提供临床证据和性能评估、实施质量管理体系和上市后监督与警戒,以及通过指定机构进行CE标志认证。根据欧盟AI法案,用于诊断、预后或治疗决策的医疗AI系统被视为高风险产品,需要全面的文档记录和风险管理、数据治理和偏见缓解、代表性数据集、技术文档和可追溯性、人类监督以及上市后监测,包括事件报告。此外,欧盟AI法案允许内部开发的AI或医院/实验室开发的AI(非商业分发)在满足性能和安全要求的情况下进行市场推广。

在美国,医疗AI系统大致分为商业可用产品和实验室开发的测试(LDTs),均由联邦/州机构监管,并由非联邦组织监督。要用于临床用途,AI工具需要获得FDA的授权。FDA发布了关于软件作为医疗器械(SaMD)的框架,以支持创新、安全和有效的医疗设备的开发(FDA,《软件作为医疗器械的全球方法》,2022年)。未经FDA授权的AI系统只能作为研究用途(RUO)进行市场推广,使用RUO产品的实验室必须遵守LDT法规。实验室负责建立临床性能指标,包括灵敏度、特异性和准确性,符合1988年的临床实验室改进修正案(CLIA88)(联邦监管机构)和美国病理学家学院(CAP)(非联邦组织)的标准。CAP的要求包括严格的实施前验证、持续监控和整合到现有质量系统中。即使是获得FDA授权的AI工具也必须在当地实验室环境中进行验证,以确保性能、临床相关性和数据偏见的缓解,病理学家在其作为CLIA主任的角色中监督数字工作流程。专业协会(包括美国临床病理学会和病理信息学协会)也提供了额外的指导。

讨论
尽管计算病理学取得了快速进展,但PFM在可扩展性、泛化能力、数据偏见、可解释性、临床终点关联、工作流程集成和互操作性、临床验证基准等方面仍存在显著限制。因此,特定任务的监督模型在临床环境中可能仍然发挥着重要作用。PFM对计算资源的需求很大,包括在千兆像素WSI上进行预训练需要大规模的图形处理单元(GPU)基础设施,而推理由于基于补丁和多尺度处理仍然非常耗资源,因此严重依赖于资源的可用性。数据集的异质性进一步限制了泛化能力。跨机构聚合的训练数据引入了混淆的非生物信号,而在TCGA等资源上训练的模型可能会编码特定部位的伪影而非疾病生物学特征。人口统计不平衡也可能导致不同患者组之间的性能差异,同时对批量效应和机构差异的敏感性仍然存在。大多数PFM依赖于自我监督或弱监督学习,这可能会捕捉到虚假的相关性(“欺骗性学习”)而非具有临床意义的形态学特征。最后,尽管学习了具有生物学相关性的嵌入,但表示的可解释性有限,以及模型之间的变异性仍然是临床信任和监管采纳的障碍。将基础模型整合到临床工作流程中仍然是一个重大挑战。当前的PFM尚未经过临床验证,需要进一步的研究来评估其临床性能指标,如灵敏度、特异性和准确性,以及模型开发中常用的指标(AUROC、F1分数、一致性等)。需要在临床环境中实施PFM的质量控制,以识别时间域变化和性能随时间的变化。此外,现有的孤立LIS和图像管理系统(IMS)阻碍了高效集成,并限制了基础模型提供的广泛能力的实际应用。为了解决这一差距,我们的团队开发了FlexLIS,这是一个集成的病理信息系统,为在常规临床实践中 streamlined部署和利用基础模型提供了潜在的解决方案。FlexLIS是一个集成了LIS(实验室信息系统)、全切片IMS(图像管理系统)和AI(人工智能)的平台,三者协同工作:LIS负责组织临床信息,IMS管理图像数据,而AI则负责在LIS和IMS之间进行信息传递。在FlexLIS中,AI模型和基础模型可以从与电子健康记录(EHR)接口的LIS中获取临床信息,并分析存储在IMS中的图像,从而使得语言模型和视觉模型能够在临床环境中共同发挥作用。

### 监管与转化挑战
现有的法规、指南和标准主要是为特定任务的AI系统制定的。由于基础模型具有通用性且应用范围更广,因此需要制定针对性的指导方针和更新标准来规范其使用。为此,世界卫生组织(WHO)最近发布了新的指导文件《人工智能在健康领域的伦理与治理:关于大型多模态模型的指南》(2024年),该文件为政府、技术公司和医疗服务提供者提供了40多项建议,以确保大型多模态模型的负责任开发和应用,旨在促进和保护公众健康。

然而,由于缺乏明确的监管框架,基础模型在临床应用中的实施过程更为复杂和具有挑战性。因此,遵循当前的实验室标准以及新制定的建议至关重要,具体包括:
1. 明确AI模型的用途(如筛查、辅助诊断、辅助工作流程、管理等),这决定了模型的分类(属于SaMD还是非设备管理工具),以及验证范围和合规性要求;
2. 制定涵盖责任归属(病理学家的角色)、透明度(使用限制和范围)、安全与隐私(HIPAA、网络安全和数据保护)以及故障处理程序的政策;
3. 完成模型验证,包括技术性能(灵敏度、特异性及相关指标)、临床相关性(是否符合预期用途)以及识别AI相关的问题(如错误结果、遗漏信息等);
4. 建立质量控制和质量保证机制,包括监控输入数据的变化、输出质量、错误记录与报告机制、更新控制措施(模型/版本变更及重新验证流程),以及遵循FDA定义的产品全生命周期管理标准(FDA,《基于机器学习的医疗设备的预定变更控制计划:指导原则》2025年)。

### 结论
我们预计未来将会开发出许多新的PFM(病理学功能模块)和平台,以解决上述问题。鉴于当前的基础模型尚未具备临床应用的条件,未来的研究将重点放在改进这些模型并将其整合到临床工作流程中,例如辅助癌症筛查和诊断(尤其是罕见癌症类型)、风险分层(预后评估)以及预测治疗反应等方面。随着自主式AI技术的成熟,自主式病理系统将发展成为参与患者护理的核心工具,具备前所未有的准确性和效率,这在资源有限的环境中尤为重要。

生物通微信公众号
微信
新浪微博


生物通 版权所有