FedMCF-xLSTM：一种用于多模态多标签心电图（ECG）分类的联邦对比式xLSTM模型

生物通首页 > 今日动态 > 正文

FedMCF-xLSTM：一种用于多模态多标签心电图（ECG）分类的联邦对比式xLSTM模型

时间：2026年1月16日

来源：Biomedical Signal Processing and Control

编辑推荐：

多模态联邦学习框架FedMCF-xLSTM通过xLSTM融合ECG信号与临床特征，结合对比学习和隐私保护机制，在PTB-XL和SPH数据集上取得89.28%和95.16%的准确率。

环二阳|段慧|李俊宝

郑州轻工业大学计算机科学与技术学院，中国郑州450000

摘要

心电图（ECG）在实际应用中面临诸多挑战，包括多模态特征融合、有限的表示能力以及作为心血管疾病（CVD）诊断工具时的多中心数据隐私保护问题。为了解决这些挑战，本文提出了FedMCF-xLSTM，一种用于多模态多标签ECG分类的联邦对比xLSTM框架。首先，我们设计了一个多模态融合主干网络（MF-xLSTM），它通过xLSTM编码器联合编码原始的12导联ECG信号，并通过多层感知器编码结构化的临床属性（如年龄和性别），然后融合得到的嵌入向量进行多标签预测。其次，我们引入了对比表示增强模块（MCF-xLSTM），该模块应用随机掩码和对比损失来促进潜在空间中的紧凑类内聚类和增大的类间边界。最后，我们将MCF-xLSTM嵌入到联邦学习框架中，使得多个客户端能够在不共享原始ECG数据的情况下进行协作优化，从而保护患者隐私。在PTB-XL数据集上的全面实验表明，我们的模型分别实现了89.28%的准确率和92.07的AUC。在SPH数据集上的额外实验进一步证实了我们方法的鲁棒性，准确率和AUC分别达到了95.16%和87.83%。

引言

心血管疾病（CVD）已成为威胁人类健康的主要公共卫生问题，并且长期以来一直是全球主要的死亡原因[1]。面对这一严峻形势，提高早期识别心血管疾病的能力和诊断的准确性已成为改善患者预后和减轻疾病负担的关键突破。心电图（ECG）是心血管疾病的核心诊断工具，它具有非侵入性、高效性和经济性的优势，在心脏病的早期筛查、临床诊断和长期监测中发挥着重要作用[2,3]。多导联ECG在心律失常检测和心肌缺血评估中具有更高的诊断价值，因为它可以全面反映心脏各部分的电活动[4]，如图1所示。然而，12导联ECG的多维分析特性导致其临床诊断准确性较低[5,6]。一项元分析显示[7]，非专业医生的诊断准确率仅为42.0%至68.5%。在医疗资源稀缺的地区，这一挑战更为严峻。迫切需要智能分类系统来提高诊断效率和准确性。

近年来，深度学习在计算机视觉领域取得了快速进展。自注意力机制[8,9]、跨模态学习[10,11]、对比学习[12,13]和联邦学习[14,15]等技术显著提升了特征提取和数据处理的能力。随着人工智能技术（如深度学习、卷积神经网络、循环神经网络和变换器）的不断发展，它们能够有效地从ECG信号的时间序列依赖性中提取局部特征，并在心律失常分类任务中取得良好效果。例如，Attia等人[16]使用了来自梅奥诊所近45,000名患者的12导联ECG和超声心动图数据，并利用卷积神经网络检测无症状的左心室收缩功能障碍。Reddy C等人[17]使用双向长短期记忆网络准确分类不同类型的心律失常，该网络用于时间模式识别，而密集块用于特征细化。Qiu等人[18]使用多分支变换器从ECG信号中提取特征，通过去除冗余信息和保留重要特征来提高分类性能。作为LSTM的变体，扩展长短期记忆（xLSTM）[19]能够有效提取时间点之间的时间相关性和时间段之间的长期依赖性，捕捉服务器能耗数据的局部和全局信息，从而提高预测准确性。例如，Kang等人[20]使用xLSTM算法通过捕捉局部和全局信号特征来处理12导联心电图记录的复杂性。大多数现有的ECG分类模型仅使用时间序列数据，忽略了患者的性别和年龄等结构化特征。研究表明，心血管疾病的发病率与患者的性别和年龄密切相关[21]。因此，将这种结构化信息纳入模型有助于提高模型推理能力和分类性能。

大多数深度学习方法本质上是监督学习，由于依赖于大规模、高质量的标记数据集而面临挑战。在医疗领域，由于技术、伦理和实际限制，获取此类数据极为困难[22]。自监督对比学习已成为一种有前景的解决方案。作为自监督表示学习的一个子集，对比学习通过解决源自数据结构的内在任务从未标记数据中生成监督信号，从而显著减少了对标签的依赖[23]。Ma等人[24]提出了一种新颖的全局-局部自监督对比学习框架，在样本和元素层面进行对比学习，使预训练的编码器能够学习更丰富的特征表示。Sethi等人[25]提出了ProtoECGNet用于可解释的多标签心电图分类。每个分支都使用为多标签学习设计原型损失函数进行训练，该函数结合了聚类、分离、多样性以及一种新颖的对比损失函数，鼓励无关类别原型之间的适当分离，同时允许经常一起出现的诊断进行聚类。现有的对比学习方法通常仅增强信号的表示能力，而对多模态联合判别的探索仍然不足。

近年来，联邦学习已成为一个重要的研究领域，尤其是在处理医疗信息等敏感数据时。由于医疗数据包含关键的个人隐私信息，联邦学习的优势在于它可以在本地设备上进行训练，而无需在中央服务器上收集数据。Çelik等人[26]提出使用联邦对抗训练来提高心电图信号分类的隐私性和安全性，并确保对抗攻击的鲁棒性。Islam等人[27]提出了一种技术，使模型能够反映现实世界的资源限制，允许本地模型在聚合更新时改变复杂性，以适应不同设备的计算多样性。然而，有必要考虑如何充分利用对比学习来提高模型的表示能力和泛化能力，同时确保数据隐私。

基于上述讨论，本文提出了FedMCF-xLSTM，一种基于多模态融合的联邦对比xLSTM方法。我们首先设计了多模态融合主干网络（MF-xLSTM），它联合编码原始的12导联ECG信号和结构化的临床特征（如年龄和性别），并融合它们进行多标签预测。然后，我们进一步构建了对比表示增强模块（MCF-xLSTM），该模块使用随机掩码和对比损失来提高学习表示的可区分性和鲁棒性。最后，我们将MCF-xLSTM嵌入到联邦学习框架中，使得多个中心能够在不共享原始ECG数据的情况下协作优化模型参数，从而在现实的多中心场景中保护患者隐私。

我们的主要贡献可以总结如下：

•

我们提出了一种基于xLSTM的多模态特征融合方法，以实现ECG信号和结构化临床信息的高效协作建模，从而克服了单一模态表示的局限性。

•

我们通过将随机掩码和对比损失集成到MF-xLSTM中设计了MCF-xLSTM。这种对比表示增强促进了潜在空间中的紧凑类内聚类和增大的类间边界，在我们的消融研究中显示出比非对比变体更一致的性能提升；

•

我们开发了FedMCF-xLSTM，一种用于多中心ECG分类的联邦多模态对比xLSTM框架。据我们所知，这是第一个同时集成多模态xLSTM、对比学习和联邦优化的框架。FedMCF-xLSTM在PTB-XL数据集上的准确率和AUC分别为89.28%和92.07%，在SPH数据集上的准确率和AUC分别为95.16%和87.83%，同时确保原始ECG数据保持在每个中心。

本文的结构如下：第2节回顾了一系列用于ECG信号分类的深度学习模型。第3节详细描述了所提出的网络。第4节主要介绍了实验设置。第5节展示了不同测试和分析的结果。最后，第6节在结论中总结了主要发现并概述了未来的工作。

整体框架

我们模型的架构如图2所示。我们的方法遵循渐进式设计：(i) MF-xLSTM通过融合原始的12导联ECG信号和结构化的临床属性构建多模态主干网络；(ii) MCF-xLSTM进一步在融合表示上引入对比学习以提高可区分性；(iii) FedMCF-xLSTM将MCF-xLSTM嵌入到联邦优化协议中，以实现多个医疗中心之间的隐私保护训练。

在客户端侧，

数据集和预处理

我们使用了PTB-XL数据集，其中包含21,837份临床12导联ECG记录，每份记录时长10秒，来自18,885名患者[40]。其中52%为男性，48%为女性。该数据集提供两种采样频率：100 Hz和500 Hz。除了信号数据外，数据还包括年龄和性别等结构化信息。本文主要关注100 Hz的数据。ECG记录分为三个不相关的类别：诊断、节律和心率。