癌症仍然是全球主要的死亡原因之一,对公共卫生构成了重大威胁,并给医疗系统带来了沉重负担。人工智能(AI)通过提供强大的工具来分析传统方法无法处理的多维数据,正在不断革新肿瘤学领域[1]。目前,尤其是深度学习模型,在识别电子健康记录(EHRs)、组织病理学切片图像、放射学图像和基因组序列等不同类型数据中的细微模式方面展现出了巨大潜力,帮助临床医生在更早、更可治疗的阶段发现肿瘤并预测治疗反应[2],[3],[4],[5],[6]。此外,AI驱动的模型能够整合大规模的临床数据集,有助于发现新的生物标志物和治疗靶点。随着这些技术的不断发展,它们在改变癌症诊断和治疗方面的潜力也在不断扩大,为改善患者预后提供了新的途径[7]。
在肿瘤学中开发出强大且具有泛化能力的AI模型依赖于能够访问涵盖患者群体多样性、疾病亚型和临床实践的大规模、多机构数据集[8]。迄今为止,AI驱动的肿瘤学研究面临的一个基本挑战是数据集规模有限的问题,这通常被称为小样本量问题[9]。一个直接的解决方案是整合来自多个机构的数据,从而增加数据集的规模和多样性,以改善模型训练和准确性。然而,医疗数据具有高度敏感性,受到严格的隐私法规(如GDPR、HIPAA)的约束,使得无限制的数据共享变得不可行[10]。此外,不同医院和研究中心之间的数据异质性进一步复杂化了AI训练,因为成像方式、基因组测序平台和临床记录的差异可能导致模型泛化能力的下降[11]。
最近,联邦学习(FL)作为一种有前景的解决方案应运而生,解决了这些问题。这种去中心化的方法允许多个客户端在不共享原始数据的情况下协作训练全局模型[12]。每个客户端在其本地数据集上独立训练模型,仅将模型更新上传到中央服务器,服务器汇总这些更新以完善全局模型,然后再将其广播回客户端进行进一步微调和部署[19]。与需要在单一位置汇总敏感数据的传统集中式学习相比,联邦学习保护了数据隐私,遵守了医疗法规,并避免了单点漏洞。此外,联邦学习通过允许在多样化的真实世界数据集上进行训练,提高了模型的可扩展性和鲁棒性,同时减少了通信开销,消除了大规模数据传输的需求。此外,联邦学习架构可以根据肿瘤数据的高维性和多模态特性进行定制[20]。针对成像、基因组和临床记录的特定编码器可以在本地进行训练,并在汇总过程中通过共享的潜在表示进行对齐,而对比学习或自我监督学习等表示学习方法以及解耦表示有助于在不同机构之间稳定训练。例如,Bercea等人引入了FedDis,这是一个用于无监督脑部异常检测的联邦解耦表示学习框架,可以减轻MRI数据中的扫描仪特定异质性[21]。Wu等人提出了用于医学图像分割的分布式对比学习方案,提高了在多站点变化条件下的模型鲁棒性[22]。个性化或基于簇的联邦策略进一步使全局模型能够适应特定机构的数据分布。因此,这些优势使得联邦学习成为推进AI驱动的肿瘤学研究和临床应用的强大且保护隐私的框架。
几项最近的调查从不同角度探讨了联邦学习在医疗保健和肿瘤学中的应用,包括广泛的智能医疗应用[13]、针对癌症的系统性综述[14]、增强差分隐私的乳腺癌模型[15]、通用医疗联邦学习分类法[16]、联邦基础模型和大规模模型[17],[18]、用于基于成像的癌症检测的可解释联邦学习[23]以及用于白血病分析的隐私保护框架[24],详见表1。基于这些研究,本文旨在全面概述联邦学习模型在癌症研究和治疗方面的最新进展(图1)。首先,我们介绍了联邦学习的基本概念和架构框架,并总结了关键算法,涵盖了经典方法和最近的优化策略。接下来,我们强调了联邦学习在肿瘤学研究中的优势,重点关注其在癌症诊断、预后建模和治疗优化中的应用。此外,我们还讨论了与联邦学习相关的挑战,如数据异质性、模型性能和监管考虑,以及克服这些障碍的新兴策略。最后,我们概述了联邦学习在肿瘤学领域的未来发展方向和机遇,强调了其在促进协作研究、改善临床决策和加速精准肿瘤学方面的潜力。总之,本文主要贡献有:
- •
我们系统地回顾了联邦学习的基本概念、架构框架和核心算法,涵盖了与肿瘤学相关的经典方法和最近的优化策略。
- •
我们总结了联邦学习在肿瘤学中的优势,并强调了其在癌症诊断、预后预测、风险分层、治疗反应评估和药物敏感性预测中的应用。
- •
我们分析了在肿瘤学中部署联邦学习面临的主要挑战,包括数据异质性、通信效率、隐私风险和临床转化问题,并讨论了为解决这些问题而开发的新兴方法。
- •
我们概述了联邦学习在肿瘤学领域的未来发展方向,重点关注多模态整合、在非独立同分布(non-IID)数据下的泛化能力、通过因果推断提高可解释性、基础模型的开发以及用于精准肿瘤学的持续学习。