在将深度学习应用于医学领域时,隐私保护仍然是一个重大挑战,这主要是由于严格的法规限制,如《健康保险可携带性和责任法案》[1]和《通用数据保护条例》[2]。此外,医学数据具有高度异质性和非独立同分布(non-IID)的特性。这种复杂性源于不同机构之间的解剖学差异和区域差异,给医学AI模型的开发带来了挑战[3]。为了解决这些挑战,联邦学习(Federated Learning, FL)[4]通过参数共享实现了去中心化的模型训练,消除了数据集中的需求。在这种方法中,各个客户端在受保护的数据上训练本地模型,然后使用聚合的参数更新全局模型,从而在保持数据隐私的同时捕捉到所有客户端的共享知识。近年来,研究人员探索了FL在各种医学任务中的潜力,重点在于开发一个能够整合多个客户端知识的强大全局模型[5],[6]。在FL的基础上,个性化联邦学习(Personalized Federated Learning, pFL)[7]专门设计用于提升单个客户端的性能,而不是专注于一个中心化的全球模型。这种方法很好地满足了医学领域的需求,同时也为在FL框架内改进特定客户端的知识聚合提供了新的机会。
目前大多数联邦医学研究都集中在结构化输出的任务上,如分割[8]和分类[9],[10],[11]。涉及视觉和语言模式整合的多模态医学任务[12]在pFL框架内仍然很少被探索。特别是像医学视觉问答(Medical Visual Question Answering, VQA)[13]、视觉问题生成(Visual Question Generation, VQG)[14]和医学报告生成(Medical Report Generation, MRG)[15]这样的视觉-语言任务,有潜力显著提高人类可解释性和临床决策支持。然而,现有的pFL方法尚未完全解决医学领域中视觉-语言任务的独特挑战。
FL在医学视觉-语言任务的发展面临两个主要障碍:计算需求和由客户端漂移引起的“子空间不匹配”问题。尽管大型语言模型(Large Language Models, LLMs)和视觉-语言模型(Vision-Language Models, VLMs)[16]具有强大的能力,但它们庞大的参数规模导致pFL中的计算和通信成本过高,使得直接参数共享变得不切实际。更严重的是,仅仅通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)来减少通信也会引入一个微妙但严重的问题:PEFT模块在低秩流形内进行优化。在非独立同分布(non-IID)的医学数据分布下,客户端会朝向不同的参数子空间演化。简单地将这些不匹配的子空间聚合会导致负面迁移,即共享知识与局部特征表示发生冲突[17]。在医学研究中,个性化至关重要,而全局正则化策略[18]往往适得其反。
为了同时解决计算效率和子空间对齐问题,我们提出了一种新的“分离与校准”策略。首先,我们将PEFT方法——具体来说是Prompt-tuning[19]、Prefix-tuning[20]和Low-Rank Adaptation (LoRA)[21]——分解为全局(共享)和个人化(本地)两部分。这确保了通用知识的传播,同时保持客户端特定特征的提取不受干扰。为了防止来自不匹配子空间的负面迁移,我们引入了动态似然加权不确定性校准(Dynamic Likelihood-Weighted Uncertainty Calibration, DLUC)。DLUC不是将所有来自同行的更新视为同等有效,而是利用Dempster-Shafer理论(Dempster-Shafer Theory, DST)[22]来量化传入参数的“认知不确定性”[23]。这个机制作为一个具有分布意识的过滤器:如果某个同行的参数对本地数据引起的不确定性较高(表明存在领域偏移),则降低其贡献[24]。这种基于不确定性的子空间对齐确保了客户端只吸收兼容的知识。
总结来说,本文的主要贡献包括:
解决子空间不匹配的框架:我们提出了一种针对医学VLMs的新型双子空间解耦个性化联邦学习(Dual-Subspace Disentanglement Personalized Federated Learning, DSD-pFL)框架。通过区分PEFT流形中的共享全局知识和客户端特定参数化,我们有效缓解了非独立同分布(non-IID)临床环境中常见的子空间不匹配问题。
基于认知不确定性的聚合:我们引入了DLUC,这是一种基于证据的校准机制。通过利用DST量化认知不确定性作为分布偏移的代理,DLUC使客户端能够选择性地吸收高置信度的知识,同时过滤掉分布外的(Out-of-Distribution, OOD)噪声。
在复杂多模态任务上的验证:我们在视觉问答(VQA)、视觉问题生成(VQG)和医学报告生成(MRG)任务上对方法进行了实证验证。结果表明,与现有最佳算法相比,我们的方法实现了更好的个性化和鲁棒性。