自我监督学习与机会主义推理在帕金森病患者步态冻结连续监测中的应用

时间:2026年5月18日
来源:ACM Transactions on Computing for Healthcare

编辑推荐:

摘要 要查看此由AI生成的摘要,您必须具有高级访问权限。了解更多信息请登录。 **摘要** 帕金森病(PD)通过诸如步态冻结(FoG)等致残的运动症状显著影响患者的生活质量。持续的家庭内监测FoG对于及时的临床干预至关重要,但由于高功耗、标注成本以及当前可穿戴设备所

广告
   X   

摘要
要查看此由AI生成的摘要,您必须具有高级访问权限。了解更多信息请登录。

**摘要**
帕金森病(PD)通过诸如步态冻结(FoG)等致残的运动症状显著影响患者的生活质量。持续的家庭内监测FoG对于及时的临床干预至关重要,但由于高功耗、标注成本以及当前可穿戴设备所需的可控环境,这仍然具有挑战性。我们介绍了LIFT-PD(源代码可在:https://github.com/shovito66/LIFT-PD获取),这是一种新颖的自监督学习(SSL)框架,用于实时、独立于患者的FoG检测,它独特地使用了一个腰戴式加速度计——这种方法传统上被认为由于步态特征较弱而不太理想。LIFT-PD利用从不受控制的真实世界环境中收集的未标记数据,并采用了一种新颖的差分跳跃窗口技术(DHWT)来应对步态变化和数据集不平衡问题。此外,一个机会主义推理模块仅在患者移动时激活深度学习模型,显著降低了功耗并实现了连续监测(>48小时)。实验结果表明,与监督和半监督基线模型相比,LIFT-PD的精确度提高了7.25%,准确性提高了4.4%,同时所需的标记训练样本数量减少了约40%。在包括严重程度、药物状态、年龄和性别在内的不同患者特征上的评估证实了该模型的稳健性和临床适用性,使LIFT-PD成为一种实用、节能且可扩展的解决方案,适用于PD患者的连续真实世界FoG监测。

**AI生成的摘要(实验性)**
此摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在支持发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解该工作。它旨在补充作者提供的摘要,后者仍然是论文的主要摘要。完整文章是权威版本。点击此处了解更多信息。点击此处评论此摘要的准确性、清晰度和实用性。这样做将有助于改进和未来重新生成的版本。要查看此由AI生成的通俗语言摘要,您必须具有高级访问权限。

**1 引言**
帕金森病(PD)是一种进行性神经系统疾病,影响全球700万至1000万人,严重影响他们的生活质量[32]。步态冻结(FoG)是一种在行走过程中暂时无法产生有效步态的症状[23],是PD最令人衰弱的症状之一,导致行动不便、跌倒和受伤的风险增加以及生活质量下降。虽然像左旋多巴这样的治疗方法有时可以减轻冻结发作的严重程度,但其效果往往不完整且具有变异性,会随时间减弱[39]。补偿性治疗如按需提示需要患者或同伴的启动,在触发冻结的时间敏感或焦虑情况下可能会很困难[6]。识别FoG事件,更重要的是,识别FoG事件发生前的时间,可以提前部署按需提示,以帮助减轻冻结事件的严重程度[12]。

近年来,可穿戴技术和机器学习(ML)算法已成为连续监测和管理PD症状(包括步态障碍和震颤[2, 3, 8])的有希望的工具[20]。然而,这些技术在现实世界中的连续监测和干预应用仍然是一个重大的研究挑战。一个主要障碍是训练强大ML模型所需的标记数据稀缺,特别是在PD中,症状表现高度个体化。数据标注需要大量的时间和专业知识,限制了准确和多样化数据集的可用性[24]。由于患者步态模式的显著个体间和个体内变化,使用独立于患者的模型来检测FoG是一项复杂的任务。以往的FoG检测研究依赖于多个传感器、广泛的特征工程、特定于患者的数据收集和模型重新训练,限制了可穿戴技术在大规模健康监测中的采用[19, 21, 30]。为了解决这些挑战,我们提出了一个创新的、标记效率高的、独立于患者的、稳健的自监督学习(SSL)框架——Label-efficient In-home Freezing-of-gait Tracking in PD(LIFT-PD),用于实时检测FoG事件。

**本工作的主要贡献包括:**
(1) 标记效率学习:LIFT-PD采用SSL方法,允许模型从少量标记实例中学习,从而大大减少了大量数据标注的需求,使其更适用于标记数据通常有限的实际应用。
(2) 处理变化性和不平衡数据:我们的差分跳跃窗口技术(DHWT)有效处理了患者间和患者内的步态变化及数据不平衡问题。
(3) 稳健性能:尽管使用的标记数据点显著减少,LIFT-PD的性能仍可与完全监督的方法相媲美。
(4) 节能:LIFT-PD包含一个机会主义推理模块(OIM),仅在活动期间激活模型,显著降低了计算负载和功耗,为在独立可穿戴系统中实现实时症状监测铺平了道路。
(5) 实用部署:通过使用单个三轴加速度计并实时处理数据而无需大量预处理,LIFT-PD为PD患者的连续家庭内实时监测提供了实用且可扩展的解决方案,便于无缝集成到日常医疗系统中。

**2 相关工作**
PD中FoG事件的检测一直是大量研究的主题,通常涉及多模态数据集。特别是,先前的工作探讨了不同传感器模式(如步态加速度、脑电图(EEG)、肌电图和皮肤电导(SC)在FoG检测中的有效性[40]。此外,研究人员使用了结合加速度和合成EEG数据的LSTM模型[10]。先前的工作还引入了迁移学习[1]、数据增强技术和重采样[29, 33],这些技术在标记数据有限的场景中非常有效[37]。我们可以根据标签使用情况将这些先前的工作大致分为用于运动分析的监督学习方法和用于FoG检测的弱标记方法,包括半监督和SSL。

用于FoG检测的监督方法通常依赖于大量标记数据,这在实际应用中是一个重大限制。这些方法通常使用ML算法,如卷积神经网络(CNNs)[35]、变换器[34]和LSTMs[10],结合加速度计和IMUs等传感器模式。多头CNN[4]和CNN-Transformer模型[30]在检测PD患者中的FoG方面表现出良好性能,但它们在泛化能力和高计算要求方面面临挑战,这限制了它们在实时可穿戴监测中的可行性。虽然这些模型提供了高检测率,但它们依赖于大量的特征工程[3, 14]、大量的训练样本和大量的计算资源,使其不适用于可穿戴设备的实时监测。此外,这些模型的高误报率会降低其在实际应用中的有效性,因为在实际应用中最小化此类错误对于患者安全和可用性至关重要。迁移学习技术,如One-Class Classifier[21]中使用的那些,有助于在正常条件下提高检测效果,但无法适应FoG事件的动态和复杂性,从而限制了其在实际应用中的有效性。表1总结了最近的PD FoG检测研究。

**表1. 最近的PD FoG检测研究**
| 研究 | 方法 | 传感器(数量)(位置) | 预处理/提取的特征 | 验证 | 贡献 |
| --- | --- | --- | --- | --- | --- |
| [30] | CNN, Transformer(监督) | 加速度计(1)(左腰) | 重采样、过滤、FFT、FILOSO | CV(SI) | 基于Transformer和CNN的方法用于FoG检测,以及用于FoG事件分析的聚类方法。 |
| [4] | 多头CNN(监督)× 抽样(SI) | 使用原始传感器数据的实时FoG检测轻量级算法。 |
| [3] | 监督ML | IMU(2)(胫骨) | 时间和频率域特征 | 10折CV,LOSO训练-测试70-30% | 检测和预测FoG,考虑多巴胺疗法对性能的影响。 |
| [19] | 半监督 | 3层IMU(1)(踝部) | 过滤、3个特征(FI, SP, STD) | LOSO(SD) | 使用未标记数据实时调整FoG分类器的参数。 |
| [21] | 监督,迁移学习 | IMU(2)(左右踝部) | 过滤、数据增强 | LOOCV(SI) | 仅使用正常步态数据的单类分类器用于FoG检测。 |

**为了解决标记数据不足的挑战,一些研究转向了半监督学习(Semi-SL),使用标记和未标记数据的组合进行模型训练。Mikos等人[19]使用了一个在踝部安装了IMU的三层网络,结合了过滤和特征提取。虽然这种方法比纯监督模型有所改进,但它仍然需要大量的标记数据,并且存在无法有效泛化到不同PD患者群体的问题。**

将SSL应用于时间序列数据,特别是用于人类活动识别(HAR),是一个较新的研究领域。与监督和半监督方法不同,像SimCLR[5]这样的SSL框架专注于在不依赖标记数据的情况下学习表示,使其适用于注释有限的场景。最初,它是为计算机视觉任务设计的,但后来被改编用于HAR,使用了基于变换器的编码器方法[13]。然而,由于在有效平衡数据集和确保模型对多样化人群的泛化方面存在挑战,SSL在FoG检测中的应用仍然有限。SSL在医学时间序列分析中的有效性已经得到证明,强调了其在数据增强和对比对形成中的作用[15]。尽管许多研究提出了有效的FoG检测方法,但大多数方法要么依赖于大量的标记数据,要么依赖于计算成本高昂的模型,这些模型不适合实时可穿戴设备的部署。这些方法通常依赖于在受控环境中收集的数据,限制了它们在日常监测中的实际效用。此外,现有方法难以处理不平衡的数据集,其中FoG事件代表性不足,并且在不同的患者群体(如不同的严重程度、年龄和性别)之间的泛化能力有限。相比之下,LIFT-PD引入了一个自监督框架,通过利用DHWT在训练期间处理类别不平衡来应对这些挑战。通过使用最少的标记数据并结合OIMs来优化功耗,LIFT-PD实现了实时FoG检测,计算开销显著降低。LIFT-PD使用单个三轴加速度计和实时数据处理而无需大量预处理,使其非常适合可穿戴设备,与依赖多个传感器且资源密集的传统模型不同。

**3 LIFT-PD系统设计**
训练强大的深度学习(DL)模型通常需要大量的标记数据,这可能难以获得,特别是对于老年人中的FoG检测等任务。为了解决这个问题,LIFT-PD在训练期间利用SSL使用未标记数据。我们在设计用于FoG检测的ML模型时面临的另一个挑战是FoG事件较为稀少,导致数据集不平衡,FoG事件的比例远低于非FoG活动。为了缓解这一挑战,我们在数据预处理过程中加入了DHWT,为FoG和非FoG实例应用了可变的重叠,从而增强了模型从代表性不足的类别中学习的能力。最后,引入了一个基于机会主义的轻量级算法,以降低执行复杂性,使其能够在独立可穿戴设备中实现(第3.2节)。

**3.1 通过SSL进行问题建模**
FoG事件检测问题被构建为一个多变量时间序列分类任务。在每个时间戳t,输入的原始信号表示为向量xt=[xt1,xt2,xt3],其中xt∈RC=3,C对应于三通道(x, y, z)加速度计数据。然后将这些原始信号组合成一个矩阵X=[x1,x2,…,xT]∈RT×C。应用DHWT方法后,信号被转换为N个训练帧(窗口)(X∈RT×C→XW∈RN×T′×C),其中xwi∈XW表示第i个窗口,T′是窗口时间长度,XW=[xw1,xw2,…,xwN]:D:X∈RT×C→XW∈RN×T′×C XW=[xw1,xw2,…,xwN]。最终目标是为每个窗口正确分配一个标签y∈{0,1},其中y=1表示“FoG”,y=0表示“非FoG”。

LIFT-PD使用SSL进行FoG检测分为两个步骤:首先使用1D CNN模型从原始信号中学习上下文表示,然后执行下游的FoG检测任务。在本文中,原始加速度计信号被用作生理信号,下游任务是二进制的“FoG”检测。

**第一阶段——SSL预训练**是通过一个掩码信号重建的 pretext任务来执行的,模型从未标记数据中学习有意义的时间表示。在以下小节中,我们将详细描述我们的SSL方法的两个主要组成部分。

**3.1.1 Pretext任务(信号重建)**
在预训练期间,使用SSL训练了一个带有编码器的3层神经网络模型。每个窗口(xwi)的20%随机段被屏蔽,用零替换。然后训练模型预测这些屏蔽值,如图1(第1部分)所示。初步实验比较了10%、20%和30%的屏蔽比例,发现20%达到了最佳平衡——提供了足够的重建难度以学习稳健的表示,同时保留了足够的时间上下文以进行有意义的特征学习。整个训练过程不需要任何标记数据。掩码信号数据X^W∈RN×T′的定义为X^W=mask(XW,m),其中x^wi∈X^W,m代表掩码比率(在我们的实现中为0.2)。图1. 实时FoG检测的自监督训练流程。预训练:编码器重建掩码信号段,输出缺失数据的预测值hi。微调:在标记数据上使用交叉熵损失优化MLP时,编码器权重保持不变。端到端流程:将训练好的模型集成到实时系统中,其中MAM选择性地激活计算密集型的FoG检测模型,以实现能效高的长期监控。MAM(模型激活模块);MLP(多层感知器)。编码器fθ:RN×T′→RN×D从掩码窗口中重建原始信号,生成一个低维的隐藏表示H∈RN×D,其中hi∈RD←fθ(x^wi)。这些数据通过全连接网络gψ(⋅)进行传递,以预测表示为x^=gψ(hi)的掩码段。编码器使用MSE最小化重建损失Lθ,定义为:Lθ=1/Nm∑j=1/Nm(x^j−xp(j))²,(1)其中Nm是掩码点的总数,x^j是第j个掩码点的预测值,xp(j)是分割信号窗口中位置为p(j)的原始输入值。目标是找到最小化此Lθ损失的最优参数θ∗,我们可以正式定义为:θ∗=arg⁡minθLθ。3.1.2 下游任务(FoG分类)。预训练后,在编码器之上引入一个多层感知器(MLP)gϕ:RN×D→Y,用于二分类FoG检测。MLP将学习到的嵌入H映射到FoG或非FoG标签Y,表示为Y^=gϕ(fθ(XW)),其中fθ是带有参数θ的预训练编码器,XW是分割信号数据。这个微调步骤是监督式的,使用少量的标记数据。最初,编码器fθ使用预训练的权重(θ∗)进行初始化,而MLP gϕ是随机初始化的。在微调过程中,编码器权重保持不变,只有MLP层使用较低的学习率进行训练,如图1(第2部分)所示。对于下游的FoG检测任务,我们最小化二元交叉熵损失Lce(θ,ϕ):Lce(θ,ϕ)=−1/N∑i=1/N[yilog²(σ(y^i))+(1−yi)log²(1−σ(y^i)),(2)其中N是窗口的总数,y是指示变量(FoG为1,非FoG为0),σ是Sigmoid函数,y^∈Y^是分类器gϕ(hi)对第i个嵌入窗口的输出。3.2 机会主义推理为了优化使用可穿戴设备进行实际家庭PD监测时的功耗和计算资源,我们提出了一种基于机会主义的简单算法作为模型激活模块(MAM)。该模块区分活跃和非活跃时期,仅在识别出的活跃间隔期间激活计算量大的SSL FoG检测模型,如图2所示。激活模块过滤掉非活跃窗口,确保SSL模型仅在检测到活动时选择性地执行,从而显著降低功耗并避免在非活跃期间的误报。在非活跃期间,使用更简单的方法通过比较当前传入信号的幅度来处理数据,从而更有效地利用电力。对于每个窗口i∈[1,N],计算3D加速度计的幅度Mi为Mi=1/T′∑t=1/T′‖ax,t²+ay,t²+az,t²‖,其中ax、ay和az是沿每个轴的加速度信号。如果Mi≥α,则认为窗口是活跃的,α是一个预定义的阈值(公式(3)),否则MAM将其丢弃:{1(活跃)如果Mi≥α 0(非活跃)否则。(3)选择阈值是为了在不降低SSL算法性能的情况下丢弃窗口。最后,在推理期间单独评估了幅度阈值的效果(第4.6节)。图2. MAM:基于活动阈值的触发机制,用于可穿戴FoG检测系统中的计算卸载和电池寿命延长。3.3 不平衡训练数据缓解我们提出的数据集生成方法(DHWT)有效处理不平衡的数据集,无需额外的预处理,即可实时部署在可穿戴设备上,同时平衡信息特征和计算效率。我们将原始传感器数据分割成短而重叠的窗口,并根据活动类型调整重叠程度。例如,在图3(a)所示的实验评估中,我们对非FoG时期应用了50%的重叠,对FoG时期应用了75%的重叠。在推理过程中,使用标准的、不可变的重叠来分割窗口,以模拟FoG时期未预先识别的实际情况。使用固定长度的重叠通常会导致训练集不平衡,如图3(b)左侧条形图所示,非FoG实例占63.3%,FoG实例占36.7%。相比之下,DHWT分割方法实现了更平衡的分布,如图同一图的右侧条形图所示,非FoG和FoG数据分别占45%和55%。对于测试集生成,使用固定的50%重叠(每1.5秒更新一次)来模拟实际操作条件,处理来自前3秒的数据。第4.7节提供了选择3秒窗口长度的详细解释。选择75%的重叠用于FoG和50%的重叠用于非FoG段是基于经验验证和领域专业知识。对于PD患者[25, 38]中典型的步态周期持续时间1.2–1.5秒,75%的重叠(跳跃≈0.75秒)确保每个训练窗口包含多个步态转换,并捕捉FoG发作的时间演变。相比之下,非FoG活动期间的50%重叠(跳跃≈1.5秒)减少了样本冗余和计算量。这些比率平衡了类别表示(≈1:1 FoG:非FoG窗口),同时保持了与专家观察到的步态动态一致的时间覆盖范围。图3. DHWT分割过程用于训练集(a);使用标准分割与DHWT分割的FoG比例(b)。3.4 数据集本研究的数据集是公开可用的tDCS FoG数据集,包含在FoG诱发协议期间处于用药(“开”)和未用药(“关”)状态的PD受试者的运动数据[11]。数据使用附着在下背部的3D加速度计收集,记录频率为128 Hz,共记录了1,132个FoG发作(总计285分钟)和15.3小时的记录时间。每个FoG发作都由专家进行了录像和注释[11]。受试者的 demographic 和临床特征总结在表2中。数据集包含标记为“正常”或“FoG”的事件。这些事件的分布总结在表3中。会话遵循Reches等人[27]和Manor等人[17]描述的FoG诱发协议,最初由Ziegler等人[41]定义。表2.特征总体用药 开 关男性(女性)8(32)7(31)6(20)年龄,平均值(标准差)69.5(7.75)70.9(6.5)68(8.3)UPDRS 开,平均值(标准差)34.27(12.7)34.27(12.7)–UPDRS 关,平均值(标准差)42.88(12.99)–42.88(12.99)NFOGQ,平均值(标准差)17.12(7.57)––自DX以来的年数,平均值(标准差),[分钟,最大]10.5(5.9),[1, 23]患者特征总结表3.事件类型用药(%)总计(%)开 关正常28.0135.4163.42FoG18.7317.8636.59FoG诱发试验期间的事件分布我们将数据重采样到40 Hz,这被认为是通过加速度计识别人类活动的有效频率,包括那些经历FoG发作的健康个体和PD患者。这个频率捕捉到了典型的冻结带(3–8 Hz),同时减少了内存负载和计算复杂性。这个较低的频率足以捕捉FoG发作期间出现的典型冻结带(范围从3到8 Hz)。此外,降采样到40 Hz有助于减少数据处理的内存负载和计算复杂性。密度图(图4,顶部面板)表明,虽然两个分布大致呈正态分布,但男性的峰值密度在30–40范围内较高,而女性的峰值范围较宽,大约在40–50之间。箱形图(图4,底部面板)显示男性的UPDRS评分中位数略低于女性,尽管两组之间的四分位数范围有重叠,并且两组中都存在异常值。图4. 按性别划分的UPDRS评分的密度分布和箱形图。顶部面板显示了UPDRS评分的密度分布,男性用蓝色表示,女性用紫色表示。底部面板展示了性别之间的UPDRS评分变化,突出了中位数评分、四分位数范围和异常值。UPDRS,统一PD评分量表。3.5 均值去除和标记分割后,我们对每个窗口进行最小限度的预处理,通过从每个传感器轴(例如x、y、z)中去除均值。这种数据居中可以减少传感器偏差并降低计算复杂性。最后,我们根据窗口的内容为其分配标签:仅包含非FoG数据的窗口标记为非FoG,至少包含50% FoG数据的窗口标记为FoG。任何同时包含两种活动的窗口都被丢弃,以确保在ML阶段进行清晰的分类。这种最小限度的预处理方法优先考虑实时性能,同时保留与FoG检测相关的特征。3.6 留一组出(LOGO)为了评估受试者的独立性,我们进行了LOGO交叉验证。整个tDCS数据集被分成两组,每组包含随机选择的20名患者。这两组的患者在年龄、症状持续时间和UPDRS方面具有相似的特征。因此,使用SSL训练每个组的20名患者来训练患者独立的模型,而留出的组则被剥离其标签以进行验证。然后评估留出组患者的分类性能,并与我们的基线监督模型进行比较。这个过程对数据集中的每个组重复三次,结果取平均值,以确保结果的可靠性和稳健性。3.7 模型开发和实验设置对于我们的下游任务,我们设计了一个5层1D CNN架构LIFT-PD(图5),允许我们使用原始传感器数据而无需进行大量的特征工程。该模型包括一个用于特征提取的编码器块和一个用于FoG检测的分类块。编码器块有五个1D卷积层(滤波器:64、128、256、128、64;核大小:3;ReLU激活函数),在第二层之后使用最大池化(池化大小:2),在第五层之后使用全局平均池化(池化大小:2)来降低特征图的复杂性。扁平化的输出通过一个具有两个密集层(单元:128、64;ReLU激活函数;第一层之后有0.4的dropout)进行二分类,最后一个密集层(单元:1;sigmoid激活函数)提供FoG检测输出。图5. 堆叠1D CNN模型的架构。模型的输入是3分钟的原始传感器数据。模型分为两个阶段进行训练:预训练和微调。在预训练阶段,编码器训练了70个周期,批量大小为64,使用Adam优化器,学习率为0.01,衰减率为0.001。在微调阶段,额外的密集层被随机初始化。模型在标记数据上进行了40个周期的微调,保持相同的批量大小,但学习率降低到0.0001,用于分类任务。在微调阶段使用较低的学习率(0.0001)是处理预训练模型的常见做法。这种较低的学习率有助于保留预训练阶段学到的特征,并确保逐步调整,避免之前学到的表示的剧烈损失。所有实验(预处理和后处理)都在配备Apple M2 Pro芯片的计算机上进行,该芯片包含16核神经引擎和16 GB的统一内存。分类模型的训练、优化和测试使用Python(3.8)、Keras(2.4)和TensorFlow(2.3)库进行。3.8 性能指标为了评估我们提出的框架在窗口级别上的FoG检测性能以及从最先进方法复制的性能,计算并报告了常用的指标。在这个二分类问题(FoG或非FoG)中,性能指标包括敏感性、特异性、F1分数和接收者操作特征(ROC)的AUC。我们使用这些指标广泛评估了我们提出的系统,与其他最先进的方法进行了比较。真正例(TP)是正确识别的FoG窗口,而假正例(FP)是错误地标记为FoG的非FoG窗口。假负例(FN)是未被识别的真实FoG窗口,真正例(TN)是正确分类的非FoG实例。图6示意性地描述了这些指标。图6. A:FoG发作,B:假正例,C:正常发作,D:DFE(TP),E:检测到的正常发作(TN),L:延迟。敏感性/召回率衡量正确检测到的FoG窗口(DFW)的比例,特异性衡量正确识别的非FoG窗口的比例。精确度评估模型避免假正例的能力。F1分数是敏感性和精确度的调和平均值,用于评估不平衡数据集上的性能[26]。3.9 FoG检测后处理为了进一步评估我们的LIFT-PD框架,使用预测和类别标签进行了后处理分析。True FoG Episode (TFE)检测的性能是通过分析连续窗口组来评估的,这些窗口组中包含冻结事件,此外还进行了窗口级别的FoG检测。3.9.1 FoG Episode。在我们的研究中,我们通过计算检测到的事件百分比以及每个事件中准确识别的FoG比例来评估FoG事件的检测能力。如果一个事件中至少有一个窗口被正确识别,则认为该事件被检测到。FoG事件被分为三类:短(<6秒)、中(6-12秒)和长(>12秒)。然后我们计算了整个数据集中以及每个持续时间组中检测到的FoG事件的百分比。我们还测量了每个事件中准确识别的DFW(Deep Fog Windows)的比例(图6(D)),定义为DFoG(%)= ndetected / ntotal,其中ndetected表示DFW的数量,ntotal是该事件中的总FoG窗口数量。对于错误的FoG事件,我们计算了每个错误检测到的事件(图6(B))与最近的真实FoG窗口之间的最小距离,以了解误报与实际FoG发生的接近程度。最后,我们评估了FoG检测的延迟,定义为实际FoG事件开始与检测到的FoG事件(DFE)之间的时间差(图6(L))。这个指标反映了算法在识别FoG事件方面的响应能力,这对于及时干预和管理帕金森病患者至关重要。3.9.2 计算复杂性。为了评估在我们的LIFT-PD框架在资源有限的可穿戴设备上部署的可行性,我们进行了几项分析。我们评估了不同输入大小的训练和测试时间,以确定使用不同数量未标记数据的自监督伪任务的最佳训练大小。训练后,我们测量了不同输入大小的推理时间,以评估实时性能。我们还分析了存储输入传感器数据和模型参数的内存需求,确保其适用于资源受限的设备。为了优化功耗并实现长期的家庭监测,我们引入了一个活动阈值优化(ATO)算法(算法1),仅在活动期间激活FoG检测模型。假设性能函数P和活动窗口Nα的计算可以在恒定时间内完成,那么不包括推理模型的总运行时间为O(N⋅αmaxδα)。包括推理模型的运行时间O(M),其中M是单个活动窗口的处理时间,调整后的复杂度变为O((M+N)⋅αmaxδα)。在最佳情况下,如果最优阈值αopt在第一次迭代中找到,运行时间为O(N)。4 结果 4.1 性能分析我们主要使用灵敏度和特异性以及其他一些指标(检测到的事件百分比、延迟、精确度、F1分数和ROC曲线的AUC)来评估LIFT-PD框架的性能,并将其与具有相同架构和参数的基线监督模型进行了比较。这一全面评估突出了我们的SSL方法在实时FoG检测方面的优势和潜在局限性。表4总结了这些指标,显示SSL模型取得了显著的改进:平均精确度提高了7.25%,准确度提高了4.4%,特异性提高了6.5%,与基线监督模型相比。重要的是,SSL模型保持了与基线一致的召回率/灵敏度(84%),确保了尽管监督减少,FoG事件的检测没有受到影响。F1分数平衡了精确度和召回率,在SSL模型中提高了约3.95%,表明在检测FoG事件方面有更好的整体性能。表4. 组别 精确度/灵敏度/DFW F1分数 准确度 特异性 损失 DFW 10.66 (0.61) 0.82 (0.82) 0.73 (0.70) 0.81 (0.77) 0.81 (0.75) 0.19 (0.23) 86.65% (86.7%) 81.6% (82.0%) 20.82 (0.77) 0.86 (0.86) 0.84 (0.81) 0.84 (0.82) 0.83 (0.78) 0.16 (0.19) 89.35% (90.1%) 86.1% (86.1%) 平均值 0.74 (0.69) 0.84 (0.84) 0.79 (0.76) 0.825 (0.79) 0.82 (0.77) 0.18 (0.21) 88.00% (88.4%) 83.85% (84.1%) 最小值 0.66 (0.61) 0.82 (0.82) 0.73 (0.70) 0.81 (0.77) 0.81 (0.75) 0.16 (0.19) 86.65% (86.7%) 81.60% (82.0%) 最大值 0.82 (0.77) 0.86 (0.86) 0.84 (0.81) 0.84 (0.82) 0.83 (0.78) 0.19 (0.23) 89.35% (90.1%) 86.10% (86.1%) 标准差 0.11 (0.11) 0.03 (0.03) 0.08 (0.08) 0.02 (0.03) 0.01 (0.02) 0.02 (0.03) 1.91 (2.4) 3.18 (2.9) 提出的LIFT-PD框架的性能 关键指标定义:Acc.,准确度;DFE,检测到的FoG事件;DFW,检测到的FoG窗口;Prec,精确度;Rec,召回率;Sens,灵敏度;Spec.,特异性;STD:标准差。基线监督模型的性能指标在括号内显示()。表5. 组别 测试组 精确度/灵敏度 F1分数 特异性 严重程度 严重 0.71 (0.7) 0.81 (0.79) 0.75 (0.74) 0.79 (0.79) 0.8 (0.79) (40) 轻微 (14) 0.78 (0.78) 0.81 (0.81) 0.80 (0.79) 0.85 (0.84) 0.83 (0.83) 性别 女性 0.78 (0.67) 0.75 (0.77) 0.76 (0.72) 0.84 (0.71) 0.80 (0.77) (40) 男性 (32) 0.71 (0.74) 0.67 (0.64) 0.69 (0.68) 0.83 (0.86) 0.77 (0.77) 年龄 年长 (20) 0.80 (0.75) 0.71 (0.71) 0.75 (0.74) 0.86 (0.82) 0.80 (0.78) (40) 中年 0.70 (0.66) 0.80 (0.79) 0.74 (0.72) 0.82 (0.79) 0.81 (0.79) 用药 启用 0.82 (0.78) 0.79 (0.72) 0.81 (0.75) 0.84 (0.82) 0.86 (0.81) 关闭 0.78 (0.70) 0.8 (0.74) 0.79 (0.72) 0.79 (0.72) 0.82 (0.78) 随机 1 (20) 0.66 (0.61) 0.82 (0.82) 0.73 (0.70) 0.81 (0.75) 0.81 (0.77) (40) 2 (20) 0.82 (0.77) 0.86 (0.86) 0.84 (0.81) 0.83 (0.78) 0.84 (0.82) 不同组别的性能比较 基线监督模型的性能指标在括号内显示()。组2在所有指标上均优于组1。组1的较低精确度(0.66)是由于更多的误报来自更高比例的FoG事件。结合SSL的DHW技术缓解了数据不平衡,提高了性能,尽管组1中存在类别不平衡。图7中的ROC曲线显示,SSL模型的曲线下面积(0.908)略大于监督模型(0.9078),表明其FoG分类性能更好。两种模型之间的AUC值接近,突显了我们的SSL方法在利用有限的标记数据进行训练时仍能实现与监督基线相当的性能的稳健性。图7. 监督模型和自监督模型的ROC曲线。4.1.1 与基线的比较。我们还将我们的SSL方法与两种半监督(Semi-SL)基线的FoG检测性能进行了比较。为了隔离我们表示学习策略的好处,我们用(i)基于Π模型的半监督流程[31]和(ii)Mean-Teacher(MT)变体[36]替换了LIFT-PD中的SSL预训练阶段,同时保持骨干网络、DHW分割和OIM在模型之间相同。这两种半监督方法都通过一致性正则化利用未标记数据,但在伪标签的形成方式上有所不同:Π模型依赖于置信度过滤的学生预测,而MT使用指数移动平均教师提供软稳定的目标。尽管两种基线都比纯监督训练有所改进,但它们需要更大比例的标记数据(约65-75%的训练集,而LIFT-PD为40%)才能实现稳定的伪标签收敛。由于FoG事件的稀疏性和变异性,Π模型中的早期伪标签往往噪声较大,而MT在标签比例有限的情况下显示出更好的稳定性但灵敏度较低。相比之下,我们的SSL伪任务通过重建掩蔽的传感器片段来学习与标签无关的时间结构,使编码器能够从所有记录中泛化,而不依赖于临时标签。因此,LIFT-PD实现了更高的召回率(0.84 vs. 0.75 [MT]/0.77 [Π])和F1分数(0.79 vs. 0.72 [MT]/0.75 [Π]),同时在精确度、准确度和特异性上与两种基线相当或超过它们(表6)。表6. 组别 精确度/灵敏度/DFW F1分数 准确度 特异性 SSL MT Π SSL MT Π SSL MT Π SSL MT Π 10.66 0.65 0.66 0.82 0.75 0.73 0.73 0.70 0.70 0.81 0.79 0.80 0.81 0.81 0.84 20.82 0.76 0.80 0.86 0.74 0.81 0.84 0.75 0.80 0.84 0.77 0.82 0.83 0.80 0.82 平均值 0.74 0.71 0.74 0.84 0.79 0.76 0.825 0.79 0.82 0.77 0.18 (0.21) 88.00% (88.4%) 83.85% (84.1%) 最小值 0.66 (0.61) 0.82 (0.82) 0.73 (0.70) 0.81 (0.77) 0.81 (0.75) 0.16 (0.19) 86.65% (86.7%) 81.60% (82.0%) 最大值 0.82 (0.77) 0.86 (0.86) 0.84 (0.81) 0.84 (0.82) 0.83 (0.78) 0.19 (0.23) 89.35% (90.1%) 86.10% (86.1%) 标准差 0.11 (0.11) 0.03 (0.03) 0.08 (0.08) 0.02 (0.03) 0.01 (0.02) 0.02 (0.03) 1.91 (2.4) 3.18 (2.9) 提出的LIFT-PD框架的性能 关键指标定义:Acc.,准确度;DFE,检测到的FoG事件;DFW,检测到的FoG窗口;Prec,精确度;Rec,召回率;Sens,灵敏度;Spec.,特异性;STD:标准差。基线监督模型的性能指标在括号内显示()。表5. 组别 测试组 精确度/灵敏度 F1分数 特异性 严重程度 严重 0.71 (0.7) 0.81 (0.79) 0.75 (0.74) 0.79 (0.79) 0.8 (0.79) (40) 轻微 (14) 0.78 (0.78) 0.81 (0.81) 0.80 (0.79) 0.85 (0.84) 0.83 (0.83) 性别 女性 0.78 (0.67) 0.75 (0.77) 0.76 (0.72) 0.84 (0.71) 0.80 (0.77) (40) 男性 (32) 0.71 (0.74) 0.67 (0.64) 0.69 (0.68) 0.83 (0.86) 0.77 (0.77) 年龄 年长 (20) 0.80 (0.75) 0.71 (0.71) 0.75 (0.74) 0.86 (0.82) 0.80 (0.78) (40) 中年 0.70 (0.66) 0.80 (0.79) 0.74 (0.72) 0.82 (0.79) 0.81 (0.79) 用药 启用 0.82 (0.78) 0.79 (0.72) 0.81 (0.75) 0.84 (0.82) 0.86 (0.81) 关闭 0.78 (0.70) 0.8 (0.74) 0.79 (0.72) 0.79 (0.72) 0.82 (0.78) 随机 1 (20) 0.66 (0.61) 0.82 (0.82) 0.73 (0.70) 0.81 (0.75) 0.81 (0.77) (40) 2 (20) 0.82 (0.77) 0.86 (0.86) 0.84 (0.81) 0.83 (0.78) 0.84 (0.82) 不同组别的性能比较 基线监督模型的性能指标在括号内显示()。组2在所有指标上均优于组1。组1的较低精确度(0.66)是由于更多的误报来自更高比例的FoG事件。结合SSL的DHW技术减轻了数据不平衡,提高了性能,尽管组1中存在类别不平衡。图7中的ROC曲线显示,SSL模型的曲线下面积(0.908)略大于监督模型(0.9078),表明其FoG分类性能更好。两种模型之间的AUC值接近,突显了我们的SSL方法在利用有限标记数据进行训练时仍能实现与监督基线相当的性能的稳健性。图7. 监督模型和自监督模型的ROC曲线。4.1.1 与基线的比较。我们还将我们的SSL方法与两种半监督(Semi-SL)基线的FoG检测性能进行了比较。为了隔离我们表示学习策略的好处,我们用(i)基于Π模型的半监督流程[31]和(ii)Mean-Teacher(MT)变体[36]替换了LIFT-PD中的SSL预训练阶段,同时保持骨干网络、DHW分割和OIM不变。这两种半监督方法都通过一致性正则化利用未标记数据,但在伪标签的形成方式上有所不同:Π模型依赖于置信度过滤的学生预测,而MT使用指数移动平均教师提供软稳定目标。尽管两种基线都比纯监督训练有所改进,但它们需要更大比例的标记数据(约65-75%的训练集,而LIFT-PD为40%)才能实现稳定的伪标签收敛。由于FoG事件的稀疏性和变异性,Π模型中的早期伪标签往往噪声较大,而MT在标签比例有限的情况下显示出更好的稳定性但灵敏度较低。相比之下,我们的SSL伪任务通过重建掩蔽的传感器片段来学习与标签无关的时间结构,使编码器能够从所有记录中泛化,而不依赖于临时标签。因此,LIFT-PD实现了更高的召回率(0.84 vs. 0.75 [MT]/0.77 [Π])和F1分数(0.79 vs. 0.72 [MT]/0.75 [Π]),同时在精确度、准确度和特异性上与两种基线相当或超过它们(表6)。表6. 组别 精确度/灵敏度/DFW F1分数 准确度 特异性 SSL MT Π SSL MT Π SSL MT Π SSL MT Π 10.66 0.65 0.66 0.82 0.75 0.73 0.73 0.70 0.70 0.81 0.79 0.80 0.81 0.81 0.84 20.82 0.76 0.80 0.86 0.74 0.81 0.84 0.75 0.80 0.84 0.77 0.82 0.83 0.80 0.82 平均值 0.74 0.71 0.74 0.84 0.75 0.77 0.79 0.72 0.75 0.83 0.78 0.81 0.82 0.81 0.83% DFW 小(0-6秒) 中等(6-12秒) 大(>12秒) SSL MT Π SSL MT Π SSL MT Π 83.3% 77.7% 79.7% 100% 96.0% 97.0% 100% 99.2% 99.2% 提出的SSL模型与两种半监督基线(MT和Π模型)的比较——使用相同的1-D CNN骨干网络 指标是跨组平均的;事件级结果(DFE)显示了不同FoG事件持续时间的检测率。最佳结果用粗体表示。4.1.2 DHWT的泛化能力。我们将分析扩展到了Daphnet [28]和MotionSense [16]中的两项活动(作为二元分类),除了主要的tDCS数据集。结果显示,由于处理类别不平衡,训练时间在各个数据集中有所增加,而推理时间保持稳定。DHWT显著提高了具有类别不平衡的数据集的精确度、F1分数和特异性,证实了其在不同条件下的有效性。Daphnet的精确度提高了161%,特异性提高了108%。这些结果支持了DHWT的泛化能力,同时没有降低计算效率(表7)。表7. 数据集 训练时间 测试时间 预训练 F1分数 特异性 tDCS 1.8秒 ↑88% 0.94秒 (0.92秒) 0.74 ↑7.2% 0.8 ↑5.3% 0.82 ↑6.5% 0.83 ↑5.1% Daphnet 0.14秒 ↑42% 0.134秒 (0.132秒) 0.55 ↑161% 0.44 ↑42% 0.94 ↑108% 0.87 ↑71% MotionSense 0.08秒 ↑142% 0.022秒 (0.024秒) 1 ↑3.1% 0.99 ↑2.5% 1 ↑1.2% 0.99 ↑1.22% DHWT在不同数据集上的性能比较 第二行显示了相对于基线的相对改进。表8. 统计量统计量 p值 解释 精确度 3.18 0.011 统计上显著改进(p < 0.05)。 召回率 1.87 0.094 统计上不显著(p > 0.05),尽管LIFT-PD显示出积极趋势。 F1分数 4.20 0.0023 F1分数有显著提高。 特异性 2.74 0.023 显著减少误报(p < 0.05)。 准确度 4.27 0.0021 整体准确度有显著提高。 将LIFT-PD与监督模型进行配对t检验的结果 4.1.3 在不同受试者中的稳健性。为了确保泛化能力,我们根据关键特征(如严重程度(轻微 N = 14)、性别(男性 N = 32)和年龄(中年 N = 20)将数据集(N = 40)分为不同的组(表5)。这些组的形成旨在包括异常值并反映现实世界的多样性,确保模型能够处理各种患者特征而不会过度拟合任何特定人群。我们观察到所有组的F1分数、准确度和特异性都有所提高,特别是在轻微病例和老年组中,证实该方法即使在患者特征多样化的情况下也能有效工作。关于用药状态,我们分别对“用药”和“未用药”状态的患者数据进行了评估。“用药”状态的患者通常由于多巴胺治疗的效果而表现出较少的运动症状,而“未用药”状态则表现出更明显的运动症状,包括波动。有趣的是,当在训练期间结合“用药”和“未用药”状态时,模型通过更好地捕捉患者用药和未用药状态之间的变化而表现出更好的结果(随机组-2)。这表明LIFT-PD能够有效适应波动的运动症状,提供在不同用药状态下的准确检测,这对于实际临床监测和干预计划至关重要。4.2 预测FoG分数的临床相关性 为了评估LIFT-PD预测的临床相关性,我们计算了模型FoG分数与标准临床指标之间的相关系数(表8)。这里,FoG分数定义为测试会话期间每个受试者的DFW比例。这个指标提供了模型在每个参与者中检测到FoG相关模式的频率的总结级指标。我们发现FoG分数与NFOGQ分数(Pearson’s r = 0.72,p < 0.01)和UPDRS-III Off分数(r = 0.63,p < 0.05)显著相关,这两个指标都是广泛使用的疾病严重程度和运动障碍的临床标志。这些结果表明模型的预测与临床评估高度一致,支持了模型的转化潜力。4.3 性能差异的统计分析 为了统计验证LIFT-PD相对于监督基线的改进,我们对多个性能指标进行了配对t检验。结果显示,在精确度(p = 0.011)、F1分数(p = 0.0023)、特异性(p = 0.023)和准确度(p = 0.0021)方面有显著改进,证实LIFT-PD在关键临床应用相关领域优于监督模型。尽管召回率(p = 0.094)在5%的水平上不显著,但仍显示出积极趋势,表明在不同患者组中的性能一致。这些发现支持了所提出方法的稳健性和可靠性。4.4 与最先进模型的比较 表9将我们的LIFT-PD模型与最先进的FoG检测方法进行了比较。为了公平起见,所有模型都是从头开始实现的,并使用相同的实验协议在相同的数据集上进行了评估。尽管Multihead CNN [4]在FoG事件的检测率(97.27%)和窗口(94.64%)上达到了最高水平,但其精确度(0.545)和特异性(0.491)较低,表明误报率较高。高误报率可能会降低提示的有效性,因为患者对“始终开启”的干预措施具有适应性[7, 9]。单类分类器[21]显示出高精确度(0.856)和特异性(0.891),但召回率较低(0.716),导致监测不足和干预延迟。半监督模型[19]的召回率低约12%,特异性低约13%,使其不太适合使用单个加速度计进行家庭监测。表9. 研究 DFERec/Sens/DFW 预训练 F1分数 特异性 单类分类器[21] 90.8% 71.6% 0.86 0.77 半监督模型[19] –72.3%––0.71 Multihead CNN [4] 97.3% 94.6% 0.56 0.68 0.49 LIFT-PD 88% 84% 0.74 0.79 0.82 与最先进模型的比较 最佳结果用粗体表示,第二佳结果用下划线表示。我们的LIFT-PD模型在检测率(88%)、窗口检测率(83.85%)、精确度(0.74)、召回率(0.84)、F1分数(0.79)和特异性(0.82)方面取得了平衡的性能。这些结果表明LIFT-PD在实时可穿戴部署方面具有与最先进方法相当的性能,同时适合资源有限的远程监测。4.5 基于持续时间的FoG事件 表10展示了FoG事件和窗口的检测率以及相关的延迟指标,按短、中和长时间分组。我们的SSL模型性能与基线监督模型进行了比较(指标在括号内)。表10. 持续时间 FoG事件和窗口检测率(%)及延迟(秒)和标准差 短时间,0-6秒 中等时间,6-12秒 长时间,>12秒 FoG事件 83.3%(82.8%) 100%(98.8%) 100%(100%) FoG窗口 68%(71.4%) 81.9%(84.1%) 91.1%(92.6%) 平均延迟 ± 标准差 2.42 ± 0.45秒(2.38 ± 0.45秒) 2.6 ± 0.96秒(2.5 ± 0.82秒) 2.64 ± 1.45秒(2.6 ± 1.29秒) 最大延迟 4.5秒(4.5秒) 6秒(5.25秒) 9.75秒 基于持续时间的FoG事件分析 SSL模型在所有持续时间上均表现出稳健的性能,随着事件长度的增加,检测率也在增加。这一趋势在基线模型的性能中也得到了体现,表明不同建模方法之间存在一致的改进。对于短时间段的片段,检测率为83.3%,对于时间窗口为68%,平均延迟时间为2.42±0.45秒。对于长时间段的片段,这些比率分别上升至100%和91.1%,延迟时间为2.64±1.45秒。长时间段片段检测率的提高是由于更明显和持续的FoG特征,如震颤和拖步行走,这些特征被SSL模型有效捕捉到了。长时间段片段检测率的提高是由于更明显和持续的FoG特征,如震颤和拖步行走,这些特征也被LIFT-PD模型有效捕捉到了。延迟时间代表了从片段开始到检测到的时间差,随着片段长度的增加而略有增加。短时间段的平均延迟时间为2.42±0.45秒,而长时间段的延迟时间为2.64±1.45秒。最大延迟时间从短时间段的4.5秒增加到长时间段的9.75秒,这反映了需要分析更多数据以准确检测FoG的开始。尽管延迟时间有所增加,但长时间段片段的检测准确性仍然更高,显示出SSL模型在平衡延迟时间和准确性方面的有效性,从而实现了在不同片段长度下的可靠FoG检测。

对于短FoG片段(<6秒)的故障分析,片段级别的检测率较低(83.3%,见表10),主要是因为它们的开始和结束时间经常与时间窗口边界重合。这减少了3秒时间窗口内FoG主导样本的比例,导致时间线索不明确,并偶尔出现延迟。此外,当运动开始时MAM阈值较高时,模型激活可能会被推迟,从而略微延迟了第一个阳性预测。未来的工作将探索自适应时间窗口(例如2.5秒窗口)和边界感知平滑技术,以提高对短暂片段的响应能力。

4.6 MAM中的阈值效应
为了确定MAM的最佳活动阈值,我们评估了不同阈值对各种性能指标的影响,如表11和图8所示。如表11所示,降低活动阈值(例如0.0)可以提高灵敏度(0.884)和DFE率(0.92),表明检测到更多的FoG事件。然而,这以较低的特异性(0.78)和更高的推理时间(3.31毫秒)为代价,因为SSL模型即使在非活动期间也会更频繁地被激活。相反,提高活动阈值(例如1.2)可以提高特异性(0.846)和较低的拒绝率(0.59),意味着在非活动期间假阳性检测较少。然而,这种改进伴随着灵敏度(0.845)和DFE率(0.809)的轻微下降,以及遗漏的FoG事件数量的增加。

图8显示了活动阈值对SSL性能的影响。表11显示了不同阈值对灵敏度、特异性、DFE率和拒绝率以及推理时间的影响。

图8. 活动阈值对SSL性能的影响。
表11. 阈值 对灵敏度 特异性 DFE率 拒绝率 推理时间
0 0.884 0.78 0.92 0.31毫秒
0.2 0.87 0.75 0.92 0.17 1.96毫秒
0.4 0.839 0.764 0.896 0.25 1.76毫秒
1.2 0.845 0.846 0.809 0.59 1.1毫秒

不同激活阈值对MAM的影响

图8表明,随着阈值的增加,特异性和拒绝率等指标稳步提高,而灵敏度和整体检测性能(F1分数)逐渐下降。仔细选择阈值对于在准确检测活动期的同时有效拒绝非活动期以优化计算资源至关重要。图9显示,随着活动阈值的增加,监督模型和自监督模型的执行时间都减少了。在1.2g的阈值下,SSL模型的执行时间约为1.1毫秒(表11,图9)。这种减少是由于MAM有效过滤掉了非活动期,减少了对计算密集型SSL模型的需求。尽管有轻微的增加,SSL模型仅使用40-60%的标记训练数据仍表现出更高的鲁棒性和更好的性能。每个窗口的平均执行时间为监督模型0.0295毫秒,SSL模型为0.0379毫秒。

4.6.1 电池寿命估计
电池寿命估计是基于在实验中使用的本地硬件上获得的推理时间得出的。每个活动阈值设置(α)产生了不同的平均推理时间(表11),这被用作能耗的代理。假设能耗与推理时间成线性关系,平均计算能耗可以建模为:Eavg=(1−ρ)Einf+Ebase,其中ρ表示拒绝率,Einf对应于测量的推理能量(或时间)。在α=1.2g时,拒绝率达到了0.59,将推理时间从3.31毫秒减少到1.1毫秒——计算负担减少了大约2.4倍。这种改进意味着在类似的低功耗可穿戴设备上,估计的运行时间从大约20小时延长到超过48小时。由于MAM基于平均去除的加速度幅度进行操作,因此它对传感器方向、轻微位移和短暂的运动伪影具有鲁棒性。

4.7 窗口大小对片段检测的影响
我们通过随机抽取训练数据的10%作为验证集进行了广泛的验证。我们的结果表明,较长的窗口(如4秒或5秒)在检测FoG片段时存在延迟,可能是由于包括了与FoG开始不密切相关的步态片段,这与之前的研究[14, 18]一致。在评估的时间窗口长度(2-5秒)中,3秒窗口是最优的,它在检测延迟和数据相关性之间取得了平衡。虽然直观上较短的窗口(2秒)在某些情况下可以减少较大FoG片段的延迟,但我们的验证显示,较短的窗口包含的上下文信息不足以进行可靠检测,因此与图10中显示的3秒窗口相比,平均检测延迟略有增加。更长的窗口(3.5秒、4秒、5秒)进一步增加了延迟,但没有提高准确性。因此,选择了3秒窗口作为最佳性能。

图10. 不同片段持续时间下窗口大小对FoG检测延迟的影响(短、中、长)。

4.8 预训练期间标签的影响
图11展示了标签比例(x轴)的变化如何影响SSL和监督模型在训练期间的性能(y轴)。
图11. 不同标记数据量对性能的分析

随着标签比例从0.2增加到0.7(意味着有更多的标记数据可用于训练),两种模型的指标(如精确度、召回率、F1分数和准确性)通常呈上升趋势,这与有更多标记数据时的预期行为一致。然而,值得注意的是SSL模型相比监督模型具有更高的稳定性和一致性,后者在不同标签比例下表现出更明显的性能波动。这种稳定性突显了SSL模型的鲁棒性以及对训练期间标记数据可用性的较低敏感性。它还强调了模型利用预训练在未标记数据上学习可转移到目标任务的通用特征的能力。图11还显示,SSL模型不仅与监督模型竞争激烈,有时甚至表现更好,尤其是在标记数据量为40-60%的情况下。这表明SSL模型可以用较少的标记实例获得有希望的结果,使其在获取大量标记数据具有挑战性的场景中非常高效和适应性强。

4.9 后处理
后处理分析评估了LIFT-PD框架检测到的FP和TFE之间的时间动态。平均而言,FP发生在上一个TFE之后16秒,下一个真实片段之前18.5秒,这表明它们通常源于实际FoG事件之后的残余运动不稳定性或传感器不准确性。我们的“预FP分析”显示,FP大约发生在最近的TFE之前14秒,表明系统对FoG片段之前或之后的微妙运动模式变化具有高敏感性。这些误报可以作为即将发生的FoG事件的前兆或警告,为治疗调整提供了宝贵的时间窗口。

为了处理孤立的误检测,实施了多数投票方案。如果一个窗口的分类与其相邻窗口不同,则对其进行调整以匹配它们,从而平滑检测序列。这种方法提高了检测性能,将检测到的真实FoG片段率从88%提高到89.8%,真实FoG窗口率从83.85%提高到84.64%。

5 局限性
尽管LIFT-PD展示了有希望的结果和实际应用的优势,但仍存在几个局限性。首先,尽管该模型在多样化的数据集和患者群体中泛化能力良好,但需要在具有不同临床条件和疾病进展阶段的更大患者群体中进行进一步验证,包括表现出震颤主导或其他非典型帕金森病运动症状的患者,以确认其鲁棒性和临床适用性。具体来说,需要额外评估模型在存在混淆症状(如静止震颤、运动障碍或运动迟缓)的情况下检测FoG片段的准确性,这些症状在帕金森病患者中经常共存。其次,虽然该系统使用单个加速度计就能有效运行,但结合额外的传感器模式(如陀螺仪或生理传感器(即心率、SC)可能会提高检测准确性,特别是对于微妙或早期阶段的FoG事件。第三,尽管OIM显著提高了能源效率,但偶尔可能会延迟激活,可能会错过非常短暂或微妙的FoG事件。第四,尽管OIM中的决策阈值是使用训练数据的小型验证子集经验性优化的,但这种阈值选择过程仍然特定于数据集,可能无法在不同条件或传感器配置下泛化。我们认识到自由生活环境引入了高变异性,目前正在使用独立数据集研究数据集无关的校准技术。未来的工作旨在提高阈值选择的鲁棒性,并确保在不同部署设置下的性能一致性。

最后,尽管通过SSL使用的标记样本显著减少,但参数的初始调整和训练仍然部分依赖于标记数据,完全无监督的适应仍然是一个未解决的挑战。未来的工作应该解决这些方面,以进一步优化LIFT-PD的性能、临床相关性和适应性。

6 讨论
在这项研究中,我们介绍了LIFT-PD,这是一个计算效率高且鲁棒的SSL框架,专为实时、独立于患者的帕金森病患者FoG片段检测而设计。我们提出的方法解决了连续家庭FoG监测中的关键挑战,特别是对大型、广泛标记的数据集的依赖和大量的能耗。通过实施新颖的DHWT,LIFT-PD有效处理了不平衡的数据和多样的步态变化,从而减少了注释负担并提高了临床可扩展性。此外,通过仅在步行期间激活DL模型,OIM的集成大大降低了能耗。这种选择性激活显著提高了电池寿命,使得连续(>48小时)的可穿戴监测成为可能。该系统需要的数据预处理最少,仅使用一个舒适地放置在腰部的三轴加速度计——这种方法传统上被认为是次优的,但通过我们的SSL策略被证明非常有效。临床上,LIFT-PD提供的准确和实时的FoG检测能够及时传递提示(例如,有节奏的听觉、视觉或振动触觉刺激),这对于中断或预防发作至关重要,而不会导致习惯化[6, 22]。

为了评估我们模型的临床鲁棒性,我们根据疾病严重程度、年龄和药物状态对性能进行了分层。这些子组反映了帕金森病表现和管理中已知的变异性来源。LIFT-PD在所有组中始终获得了高F1分数和特异性,特别是在老年人和服药状态的患者中表现尤为突出。该系统能够在不同患者人群中稳健地检测FoG片段,包括不同的严重程度、药物状态和年龄组,进一步强调了其在实际临床场景中的实用性,使得患者管理更加个性化。大多数误检测发生在短暂的FoG片段(<6秒)中,其中过渡动态占主导地位,运动幅度较低。这些情况挑战了时间连续性和MAM激活的敏感性。自适应阈值和更短、重叠的推理窗口是进一步减少这些错误的有希望的方向。虽然短片段的检测率低于长时间段片段,但在临床相关性背景下考虑这一性能是重要的。短FoG片段(<6秒)通常对患者移动能力和跌倒风险的影响较小。然而,它们可能作为药物效果减弱或长时间段片段的早期指标。检测到的短片段的平均延迟时间为2.42±0.45秒(表10),仍然为预防性干预提供了有用的时间窗口。

此外,我们将LIFT-PD与多种最先进的半SL方法进行了比较,包括Mikos等人发布的模型[19]、Π模型基线和MT变体,所有这些方法都使用相同的数据分割和架构进行评估。虽然这些半SL方法通过一致性正则化利用了未标记数据,但它们需要更大比例的标记样本才能达到稳定的性能,并且在检测短暂FoG事件时显示出较低的敏感性。相比之下,所提出的SSL框架在使用较少标记数据(40%)的情况下,仍实现了更高的召回率和F1分数,证明了其能够学习到鲁棒且不依赖于标签的步态表示方法,这些表示方法能够在不同受试者和临床条件下有效泛化。7 结论 总之,LIFT-PD为实时检测帕金森病(PD)中的冻结步态(FoG)现象提供了一种实用且具有临床意义的解决方案。该系统通过创新的SSL和机会主义推理策略,成功实现了鲁棒且与患者无关的监测,减少了对标记数据的依赖,并显著延长了电池寿命。它依赖于单个腰戴式加速度计,确保了患者的舒适度和依从性,从而增强了在家连续使用的可行性。此外,LIFT-PD在年龄、性别、疾病严重程度和用药状态等方面表现出良好的泛化能力,其输出与临床评估结果(如NFOGQ和UPDRS-III Off评分)具有显著相关性,进一步证明了其转化潜力。最终,通过提供准确及时的冻结步态检测并支持有针对性的、基于提示的干预措施,LIFT-PD显著提升了家庭监测能力,改善了帕金森病症状的管理,并积极提高了患者的生活质量。

数据和代码可用性 本研究使用了公开可用的tDCS FoG数据集。该数据集包含了帕金森病患者佩戴的可穿戴3D下背部传感器记录,这些记录标注了冻结步态事件。三个事件类别(开始犹豫、转身和行走)的真实标签是通过专家逐帧视频注释获得的。数据集的访问地址为:https://kaggle.com/competitions/tlvmc-parkinsons-freezing-gait-prediction。LIFT-PD框架的代码库,包括模型实现、训练脚本和评估流程,可在以下链接公开获取:https://github.com/shovito66/LIFT-PD。

生物通微信公众号
微信
新浪微博


生物通 版权所有