通过高效的微调和基于不确定性的解耦技术，为医学视觉-语言模型实现个性化联邦学习

生物通首页 > 今日动态 > 正文

通过高效的微调和基于不确定性的解耦技术，为医学视觉-语言模型实现个性化联邦学习

时间：2026年3月21日

来源：Journal of Biomedical Informatics

编辑推荐：

针对医疗AI中数据异质性和隐私问题，提出融合参数高效微调和动态不确定性校准的个性化联邦学习框架，有效缓解子空间不匹配问题，在视觉问答、生成等任务中显著提升性能。

作者：朱赫（He Zhu）、户野仁（Ren Togo）、小川隆弘（Takahiro Ogawa）、长山美纪（Miki Haseyama）

日本北海道大学信息科学与技术研究生院

摘要

隐私问题和数据异质性仍然是推进医学人工智能（AI）发展的关键障碍。虽然联邦学习（Federated Learning, FL）提供了一种去中心化的解决方案，但在临床环境中，它常常面临“子空间不匹配”（Subspace Mismatch）问题，即非独立同分布（non-IID）数据导致各个客户端朝向不同的参数流形演化。为了解决这个问题，我们提出了一种针对视觉-语言医学任务的新型个性化联邦学习（Personalized Federated Learning, pFL）框架。我们的方法采用了“分离与校准”策略：首先，我们利用参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）和“双子空间解耦”（Dual-Subspace Disentanglement）机制，将参数分为共享部分和个人化部分，以分离通用医学知识与特定场所的特征；其次，为了防止负面迁移，我们引入了动态似然加权不确定性校准（Dynamic Likelihood-Weighted Uncertainty Calibration, DLUC）机制。该机制利用Dempster-Shafer理论量化认知不确定性，作为一个具有可靠性意识的过滤器，选择性地整合兼容的知识。在视觉问答（Visual Question Answering）、问题生成（Question Generation）和医学报告生成（Medical Report Generation）等任务上的广泛实验表明，我们的方法显著减轻了客户端漂移现象，并比现有最佳算法实现了更好的个性化效果。

引言

在将深度学习应用于医学领域时，隐私保护仍然是一个重大挑战，这主要是由于严格的法规限制，如《健康保险可携带性和责任法案》[1]和《通用数据保护条例》[2]。此外，医学数据具有高度异质性和非独立同分布（non-IID）的特性。这种复杂性源于不同机构之间的解剖学差异和区域差异，给医学AI模型的开发带来了挑战[3]。为了解决这些挑战，联邦学习（Federated Learning, FL）[4]通过参数共享实现了去中心化的模型训练，消除了数据集中的需求。在这种方法中，各个客户端在受保护的数据上训练本地模型，然后使用聚合的参数更新全局模型，从而在保持数据隐私的同时捕捉到所有客户端的共享知识。近年来，研究人员探索了FL在各种医学任务中的潜力，重点在于开发一个能够整合多个客户端知识的强大全局模型[5],[6]。在FL的基础上，个性化联邦学习（Personalized Federated Learning, pFL）[7]专门设计用于提升单个客户端的性能，而不是专注于一个中心化的全球模型。这种方法很好地满足了医学领域的需求，同时也为在FL框架内改进特定客户端的知识聚合提供了新的机会。

目前大多数联邦医学研究都集中在结构化输出的任务上，如分割[8]和分类[9],[10],[11]。涉及视觉和语言模式整合的多模态医学任务[12]在pFL框架内仍然很少被探索。特别是像医学视觉问答（Medical Visual Question Answering, VQA）[13]、视觉问题生成（Visual Question Generation, VQG）[14]和医学报告生成（Medical Report Generation, MRG）[15]这样的视觉-语言任务，有潜力显著提高人类可解释性和临床决策支持。然而，现有的pFL方法尚未完全解决医学领域中视觉-语言任务的独特挑战。

FL在医学视觉-语言任务的发展面临两个主要障碍：计算需求和由客户端漂移引起的“子空间不匹配”问题。尽管大型语言模型（Large Language Models, LLMs）和视觉-语言模型（Vision-Language Models, VLMs）[16]具有强大的能力，但它们庞大的参数规模导致pFL中的计算和通信成本过高，使得直接参数共享变得不切实际。更严重的是，仅仅通过参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）来减少通信也会引入一个微妙但严重的问题：PEFT模块在低秩流形内进行优化。在非独立同分布（non-IID）的医学数据分布下，客户端会朝向不同的参数子空间演化。简单地将这些不匹配的子空间聚合会导致负面迁移，即共享知识与局部特征表示发生冲突[17]。在医学研究中，个性化至关重要，而全局正则化策略[18]往往适得其反。

为了同时解决计算效率和子空间对齐问题，我们提出了一种新的“分离与校准”策略。首先，我们将PEFT方法——具体来说是Prompt-tuning[19]、Prefix-tuning[20]和Low-Rank Adaptation (LoRA)[21]——分解为全局（共享）和个人化（本地）两部分。这确保了通用知识的传播，同时保持客户端特定特征的提取不受干扰。为了防止来自不匹配子空间的负面迁移，我们引入了动态似然加权不确定性校准（Dynamic Likelihood-Weighted Uncertainty Calibration, DLUC）。DLUC不是将所有来自同行的更新视为同等有效，而是利用Dempster-Shafer理论（Dempster-Shafer Theory, DST）[22]来量化传入参数的“认知不确定性”[23]。这个机制作为一个具有分布意识的过滤器：如果某个同行的参数对本地数据引起的不确定性较高（表明存在领域偏移），则降低其贡献[24]。这种基于不确定性的子空间对齐确保了客户端只吸收兼容的知识。

总结来说，本文的主要贡献包括：

解决子空间不匹配的框架：我们提出了一种针对医学VLMs的新型双子空间解耦个性化联邦学习（Dual-Subspace Disentanglement Personalized Federated Learning, DSD-pFL）框架。通过区分PEFT流形中的共享全局知识和客户端特定参数化，我们有效缓解了非独立同分布（non-IID）临床环境中常见的子空间不匹配问题。
基于认知不确定性的聚合：我们引入了DLUC，这是一种基于证据的校准机制。通过利用DST量化认知不确定性作为分布偏移的代理，DLUC使客户端能够选择性地吸收高置信度的知识，同时过滤掉分布外的（Out-of-Distribution, OOD）噪声。
在复杂多模态任务上的验证：我们在视觉问答（VQA）、视觉问题生成（VQG）和医学报告生成（MRG）任务上对方法进行了实证验证。结果表明，与现有最佳算法相比，我们的方法实现了更好的个性化和鲁棒性。

重要性声明：

医学应用中的联邦学习

医学数据通常面临样本量有限和高度异质性的挑战，再加上隐私法规[1],[2],[25]的限制，使得通过数据共享来解决这些问题变得困难。联邦学习（FL）使得无需数据交换或共享即可在不同地点协作训练机器学习模型，为缓解小样本量问题[26]提供了有希望的解决方案，同时保护了个人隐私。尽管FL已应用于多种场景

问题表述

我们的方法概述如图1所示。我们考虑了一个包含

T

个独立客户端的pFL设置，每个客户端都使用预训练模型并在本地分布式数据集上进行微调

{C_{t}}_{t}^{}}

，其中每个客户端都通过PEFT进行初始化。

对于一个由

C_{t}

参数化的客户端模型

θ_{t}

，我们将局部优化问题表述为一个联合最大化问题：

{arg max}_{θ_{t} Q (G, U | θ_{t}, D_{t})}

。这里，

Q

代表了对模型输出的严格质量评估。独特的是，我们的目标函数不

数据集

本研究受到基于Transformer架构在多模态医学任务中的显著影响的驱动。考虑到VQA和VQG任务的广泛应用，我们从VQA-RAD [43]和Slake [44]数据集中选择了医学图像和问答对。这些数据集根据图像的解剖学焦点进一步划分为子数据集。为了反映真实临床环境中不同部门的结构，我们为Slake定义了四个客户端

结论与讨论

在这项研究中，我们提出了一种可靠的pFL框架，专门用于视觉-语言医学应用，特别是针对医学VQA、VQG和MRG等任务。通过将PEFT方法集成到多头注意力层中，我们的方法显著降低了计算开销，同时保持了个性化能力。此外，我们引入了基于Dempster-Shafer理论的DLUC过程，以优化客户端特定更新的聚合并减轻客户端漂移。