肿瘤学中的联邦学习:架起人工智能创新与隐私保护之间的桥梁

时间:2026年1月18日
来源:Information Fusion

编辑推荐:

本文系统综述了联邦学习在癌症研究中的应用,涵盖其原理、架构、优势及挑战,强调其在保护隐私、整合多模态数据、提升模型鲁棒性方面的作用,并提出未来需解决数据异质性和开发基础模型等方向。

广告
   X   

Xin Qi|Tao Xu|Chengrun Dang|Zhuang Qi|Lei Meng|Han Yu
中国江苏省苏州市苏州科技大学化学与生命科学学院

摘要

人工智能(AI),包括机器学习和深度学习模型,通过提供强大的工具来分析复杂的多维数据,正在不断改变肿瘤学领域。然而,开发可靠且具有泛化能力的模型需要大规模的训练数据集,而这些数据集往往受到隐私法规以及医疗机构间医疗数据分散性的限制。联邦学习作为一种有前景的方法应运而生,它能够在不共享原始数据的情况下实现多站点之间的协作模型训练。本文介绍了联邦学习的基本原理和架构框架,强调了其在保护数据隐私、提高模型鲁棒性以及促进多组学和多模态数据集整合方面的优势。文章讨论了联邦学习在癌症检测、预后预测和治疗反应预测等关键应用中的潜力,突显了其在支持临床决策方面的作用。此外,还指出了将联邦学习应用于肿瘤学的主要挑战,并概述了推进精准医疗的关键方向,包括多模态数据的整合、基础模型的开发、因果推理以及持续学习。随着技术的不断进步,联邦学习在连接AI创新与肿瘤学中的隐私保护方面具有巨大潜力。

引言

癌症仍然是全球主要的死亡原因之一,对公共卫生构成了重大威胁,并给医疗系统带来了沉重负担。人工智能(AI)通过提供强大的工具来分析传统方法无法处理的多维数据,正在不断革新肿瘤学领域[1]。目前,尤其是深度学习模型,在识别电子健康记录(EHRs)、组织病理学切片图像、放射学图像和基因组序列等不同类型数据中的细微模式方面展现出了巨大潜力,帮助临床医生在更早、更可治疗的阶段发现肿瘤并预测治疗反应[2],[3],[4],[5],[6]。此外,AI驱动的模型能够整合大规模的临床数据集,有助于发现新的生物标志物和治疗靶点。随着这些技术的不断发展,它们在改变癌症诊断和治疗方面的潜力也在不断扩大,为改善患者预后提供了新的途径[7]。
在肿瘤学中开发出强大且具有泛化能力的AI模型依赖于能够访问涵盖患者群体多样性、疾病亚型和临床实践的大规模、多机构数据集[8]。迄今为止,AI驱动的肿瘤学研究面临的一个基本挑战是数据集规模有限的问题,这通常被称为小样本量问题[9]。一个直接的解决方案是整合来自多个机构的数据,从而增加数据集的规模和多样性,以改善模型训练和准确性。然而,医疗数据具有高度敏感性,受到严格的隐私法规(如GDPR、HIPAA)的约束,使得无限制的数据共享变得不可行[10]。此外,不同医院和研究中心之间的数据异质性进一步复杂化了AI训练,因为成像方式、基因组测序平台和临床记录的差异可能导致模型泛化能力的下降[11]。
最近,联邦学习(FL)作为一种有前景的解决方案应运而生,解决了这些问题。这种去中心化的方法允许多个客户端在不共享原始数据的情况下协作训练全局模型[12]。每个客户端在其本地数据集上独立训练模型,仅将模型更新上传到中央服务器,服务器汇总这些更新以完善全局模型,然后再将其广播回客户端进行进一步微调和部署[19]。与需要在单一位置汇总敏感数据的传统集中式学习相比,联邦学习保护了数据隐私,遵守了医疗法规,并避免了单点漏洞。此外,联邦学习通过允许在多样化的真实世界数据集上进行训练,提高了模型的可扩展性和鲁棒性,同时减少了通信开销,消除了大规模数据传输的需求。此外,联邦学习架构可以根据肿瘤数据的高维性和多模态特性进行定制[20]。针对成像、基因组和临床记录的特定编码器可以在本地进行训练,并在汇总过程中通过共享的潜在表示进行对齐,而对比学习或自我监督学习等表示学习方法以及解耦表示有助于在不同机构之间稳定训练。例如,Bercea等人引入了FedDis,这是一个用于无监督脑部异常检测的联邦解耦表示学习框架,可以减轻MRI数据中的扫描仪特定异质性[21]。Wu等人提出了用于医学图像分割的分布式对比学习方案,提高了在多站点变化条件下的模型鲁棒性[22]。个性化或基于簇的联邦策略进一步使全局模型能够适应特定机构的数据分布。因此,这些优势使得联邦学习成为推进AI驱动的肿瘤学研究和临床应用的强大且保护隐私的框架。
几项最近的调查从不同角度探讨了联邦学习在医疗保健和肿瘤学中的应用,包括广泛的智能医疗应用[13]、针对癌症的系统性综述[14]、增强差分隐私的乳腺癌模型[15]、通用医疗联邦学习分类法[16]、联邦基础模型和大规模模型[17],[18]、用于基于成像的癌症检测的可解释联邦学习[23]以及用于白血病分析的隐私保护框架[24],详见表1。基于这些研究,本文旨在全面概述联邦学习模型在癌症研究和治疗方面的最新进展(图1)。首先,我们介绍了联邦学习的基本概念和架构框架,并总结了关键算法,涵盖了经典方法和最近的优化策略。接下来,我们强调了联邦学习在肿瘤学研究中的优势,重点关注其在癌症诊断、预后建模和治疗优化中的应用。此外,我们还讨论了与联邦学习相关的挑战,如数据异质性、模型性能和监管考虑,以及克服这些障碍的新兴策略。最后,我们概述了联邦学习在肿瘤学领域的未来发展方向和机遇,强调了其在促进协作研究、改善临床决策和加速精准肿瘤学方面的潜力。总之,本文主要贡献有:
  • 我们系统地回顾了联邦学习的基本概念、架构框架和核心算法,涵盖了与肿瘤学相关的经典方法和最近的优化策略。
  • 我们总结了联邦学习在肿瘤学中的优势,并强调了其在癌症诊断、预后预测、风险分层、治疗反应评估和药物敏感性预测中的应用。
  • 我们分析了在肿瘤学中部署联邦学习面临的主要挑战,包括数据异质性、通信效率、隐私风险和临床转化问题,并讨论了为解决这些问题而开发的新兴方法。
  • 我们概述了联邦学习在肿瘤学领域的未来发展方向,重点关注多模态整合、在非独立同分布(non-IID)数据下的泛化能力、通过因果推断提高可解释性、基础模型的开发以及用于精准肿瘤学的持续学习。

联邦学习流程

联邦学习流程

与传统的集中式学习不同,联邦学习确保数据分布在不同的客户端之间,从而保护了隐私并减少了数据传输开销[25]。这种方法在医疗保健等领域尤其具有优势,因为这些领域的数据敏感性和监管限制限制了数据共享。如图1所示,联邦学习过程通常遵循一个迭代的工作流程,涉及

肿瘤学中的联邦学习算法:经典框架和优化策略

联邦学习提供了一个协作机器学习框架,允许多个医疗机构在不共享敏感数据的情况下共同训练模型,这在肿瘤学领域尤为重要,因为该领域有严格的隐私法规。为了有效实现这种协作,已经开发了多种联邦学习算法来应对分布式、异质性和隐私敏感的癌症相关数据所带来的独特挑战。

联邦学习在肿瘤学研究中的优势

联邦学习已成为肿瘤学研究中的一个强大范式,提供了一种无需直接访问患者数据即可跨多个机构协作训练机器学习模型的方法。这在癌症护理中尤为重要,因为医疗影像、分子特征和临床记录等敏感信息通常分布在不同的医院和研究中心,并受到严格的隐私法规约束。通过实现去中心化的模型训练

联邦学习在癌症诊断、预后和治疗优化中的应用前景

随着AI在肿瘤学领域的不断应用,联邦学习已成为一种有前景的范式,能够在保护隐私的同时促进机构间的协作模型开发。近年来,越来越多的研究展示了联邦学习在癌症护理全过程中的实用性,包括早期检测、亚型分类、预后预测、风险分层和治疗反应建模(图2)。这些应用表明,联邦学习如何

在肿瘤学护理中部署联邦学习的技术和实际挑战

尽管联邦学习在促进肿瘤学中的协作和隐私保护方面具有巨大潜力,但其实际应用仍面临重大的技术、基础设施和伦理挑战。这些挑战包括机构间数据源的异质性、联邦框架的繁重通信和计算需求、尽管采用了去中心化设计但仍存在的隐私漏洞,以及通往临床整合的复杂路径(图4)。解决这些

通过联邦学习推进个性化肿瘤学的转化视角

联邦学习通过促进具有异构数据、基础设施和临床实践的机构间的隐私保护协作,为推进个性化肿瘤学提供了巨大潜力。然而,其转化价值取决于多个方法论维度的协调进展,而不仅仅是单个组件的改进。特别是,多模态整合增加了表示的丰富性,同时也放大了异质性,这反过来又

结论

联邦学习为在肿瘤学领域实现隐私保护和协作智能提供了有力的范式。通过将数据访问与模型训练分离,它解决了数据共享的长期障碍,并为开发强大且具有泛化能力的AI模型提供了可扩展的路径,以支持癌症诊断、预后和治疗优化。尽管前景广阔,但仍存在一些技术和转化挑战,包括明显的数据

CRediT作者贡献声明

Xin Qi:撰写——审阅与编辑、撰写——初稿、项目管理、方法论、调查、正式分析、数据管理、概念化。Tao Xu:项目管理、方法论、调查、数据管理、概念化。Chengrun Dang:方法论。Zhuang Qi:撰写——审阅与编辑、方法论、概念化。Lei Meng:撰写——审阅与编辑。Han Yu:撰写——审阅与编辑、监督。

利益冲突声明

我们声明与任何可能不当影响我们工作的人或组织没有财务和个人关系。我们对任何产品、服务和/或公司没有专业或其他性质的利益,这些利益可能会影响本文所呈现的观点或手稿的审阅。

生物通微信公众号
微信
新浪微博


生物通 版权所有