计算算法的可复现性是医学研究中一项具有挑战性但至关重要的要求,也是人工智能算法可信训练与应用的核心组成部分。联邦学习(Federated Learning, FL)常被用于实现医学研究中隐私保护型人工智能。可复现性的前提是可追溯性,现有多数可追溯联邦学习平台相关研究借助区块链技术实现可追溯性,但在医疗场景中,区块链的资源高效替代方案具备可行性,其可追溯特性仍需单独的设计考量。为满足欧盟委员会等监管机构对可复现人工智能日益增长的需求,研究人员提出新型概念TrainTracks,该概念扩展了成熟的个人健康列车(Personal Health Train, PHT)企业分析与分布式机器学习平台(Platform for Analytics and Distributed Machine Learning for Enterprises, PADME),以支持医学研究中可复现、可追溯的联邦学习。PADME已部分支持追踪联邦学习流程及项目中分析算法的变更,研究人员通过将其与分布式数据管理工具DataLad和MetaLad集成,新增了对数据、元数据及计算实验执行的隐私保护型变更追踪能力。随后研究人员对照详细需求清单对所提概念进行评估,以分析TrainTracks的优势及后续设计优化方向。评估结果显示,TrainTracks在适用于联邦学习的47项指标中,较原始PADME平台实现了15项提升,其中数据可复现性提升最为显著,12项相关指标中有10项从无支持升级为全自动信息提取支持;方法可复现性除引入专用可复现仓库外无明显改进;实验可复现性在30项适用指标中实现5项升级,主要来自工作流与代码可追溯性增强。研究表明,将联邦学习技术与数据版本控制工具结合,可提供结构化、自动化的工作流,实现对联邦学习算法本身、交付算法及所用数据的全链路追踪。TrainTracks对可复现人工智能实验、方法与数据的建议表现出高度合规性,凸显了联邦学习全流程可追溯的重要性——所有维度的可追溯性均独立贡献于医学研究的可复现性,尤其在电子健康记录等新数据持续生成的动态应用场景中,联邦学习下的数据集版本追踪至关重要。
该研究针对医学联邦学习中可复现性不足与隐私保护难以兼顾的痛点,由研究人员发表于《BMC Medical Informatics and Decision Making》。当前医学研究面临“可复现性危机”:Nature 2016年的调查显示70%的研究者无法复现他人实验结果,医学领域这一比例超过60%。同时医疗数据受GDPR、HIPAA等严格隐私法规约束,传统集中式训练难以实现,联邦学习与个人健康列车(PHT)范式通过“算法到数据”的模式解决了隐私问题,但现有可追溯方案多依赖区块链,在医疗信任场景下会引入不必要的复杂度与存储开销。此外医学数据处于动态更新状态,现有PHT实现(如PADME)仅能追踪算法变更,缺乏对数据版本、元数据演化的自动化记录,无法满足欧盟委员会等机构提出的全流程可追溯要求。为此研究人员提出TrainTracks概念,在不改变原有PADME部署架构的前提下,通过集成分布式数据管理工具实现数据侧的可追溯增强,最终构建了覆盖数据、方法、实验三个维度的可复现联邦学习框架。
研究采用的关键技术方法包括:① 以成熟PHT实现PADME为基础平台,保留其原有的列车调度、Docker镜像封装、分布式分析元数据模式(Distributed Analytics Metadata Schema, DAMS)等核心能力;② 在各站点本地部署DataLad(基于Git与Git-Annex的分布式数据管理系统)与MetaLad(元数据扩展工具),遵循耶鲁大学开放数据访问(Yale University Open Data Access, YODA)原则构建标准化数据集结构;③ 设计定期调度的数据版本列车(Data Versioning Train),自动执行数据版本提交、元数据提取与匿名化,将脱敏后的聚合元数据同步至中央服务端的中央MetaLad仓库;④ 扩展常规分析列车功能,嵌入数据集版本追踪脚本,将每次实验所用的站点数据集版本、列车版本、运行配置存入中央可复现仓库(Central Reproducibility Repository)。研究案例基于科隆与法兰克福两家神经科的脑卒中MRI多中心分析队列展开。