1. 引言
精准医疗旨在提供个性化的诊断与治疗方案,这有赖于对个体生理参数的实时监测与分析。传统的医院诊断模式存在成本高、便携性差等问题,因此,开发适合家用的便携式可穿戴医疗设备意义重大。柔性可穿戴传感器作为信号转换器,将生理活动信号转化为电信号,在人体健康监测、生物医学应用和柔性电子皮肤等领域展现出巨大潜力。例如,可穿戴心电图传感器被广泛用于心血管疾病管理。
与传统健康监测方法相比,柔性可穿戴传感器具有轻便、小巧、成本低、便携和用户友好等优势。它们允许个体在日常生活中连续、实时地监测生理健康,便于早期发现和长期观察健康状况。此外,柔性传感器还具有出色的柔韧性和可拉伸性等机械优势,使其能够紧密贴合人体。
尽管柔性传感技术发展迅速,但在信号采集和解释方面仍存在传统方法难以克服的重大挑战。首先,信号稳定性和保真度问题突出:皮肤与传感器接口之间的动态机械耦合导致接触阻抗持续变化,引起严重的运动伪影和基线漂移。其次,多模态信号串扰问题显著:当集成多个传感器或单个传感器具备多参数传感能力时,应力、温度和湿度等物理场会相互作用,产生非线性串扰信号。最后,个体间的信号变异性构成主要障碍:由于生理结构和运动习惯的差异,同一传感器在不同个体或身体部位的输出特性差异显著。
机器学习方法为解决这些挑战提供了新途径。它们擅长从高维、非线性、含噪声的数据中提取稳健特征。例如,深度学习可以在时频域进行端到端学习,以区分运动伪影和真实信号,实现自适应降噪。图神经网络可以建模多个传感器之间的复杂耦合关系,从而提高多模态信号解释的准确性。机器学习与柔性传感的深度融合有望克服传统信号处理技术的局限性。
2. 数据采集与预处理
在柔性可穿戴电子设备的研究与应用中,数据采集是实时监测和智能分析的基础。压力、温度、生物电等多种柔性传感器被用于高保真、时间连续地捕获用户的生理或机械信号。后续机器学习分析的准确性和可靠性高度依赖于所收集数据的质量和一致性。然而,原始传感器输出常受到噪声、基线漂移和时间错位的污染,因此在模型训练前需要进行系统性的预处理。
在数据预处理阶段,首要的基本操作是降噪,旨在消除来自外部环境源和传感器固有缺陷的干扰。常用的信号处理方法包括低通滤波器(衰减预期信号频带以外的高频噪声)和中值滤波器(有效抑制脉冲噪声,同时保留主要波形形态)。对于时间序列数据,通过滑动窗口技术进行分割是关键的准备步骤。此方法将连续的传感器记录划分为重叠或非重叠的时间段,从而在生成用于学习模型的可管理输入单元的同时,保持序列数据的时间依赖性。
降噪和分割后,数据归一化在确保数值稳定性和提高异构特征间的可比性方面起着关键作用。最常用的归一化方法包括最小-最大缩放、Z-score归一化或比例(向量)缩放。经过归一化,特征提取过程将预处理后的传感器信号转换为能够捕捉预测任务相关内在模式的代表性描述符。常用的特征包括统计度量(均值、方差、标准差、峰值)、时域参数(自相关系数、波形因子)和频域特征(傅里叶系数、谱能量、熵、主频)。
尽管上述预处理和特征提取方法可以有效捕捉信号模式,但在实际可穿戴应用中,数据质量仍受到运动伪影和传感器漂移等固有干扰的限制。运动伪影是由用户运动(如行走或跑步)期间传感器与皮肤之间的机械位移引起的,会产生与心电图(0.8-3 Hz)等生理信号频带重叠的低频噪声(0.5-10 Hz)。自适应滤波、独立成分分析和经验模态分解是分离运动诱发分量的有效对策。传感器漂移源于材料疲劳、蠕变或环境波动,导致长期监测中出现缓慢的基线偏移。校正策略包括滑动窗口去趋势、增量式重新校准或引入参考通道补偿。
3. 机器学习及其在柔性可穿戴传感中的应用
在柔性可穿戴传感领域,机器学习算法的应用日益广泛。这些算法在呼吸监测、心率监测、手势识别、关节活动监测和步态分析等多个核心功能中发挥着至关重要的作用。例如,在呼吸监测中,机器学习实时处理传感器信号以准确识别不同的呼吸模式,从而协助检测睡眠呼吸暂停等潜在健康问题。在心率监测中,机器学习算法处理心电图数据,提取重要特征,显著提高心率检测的准确性。手势识别利用机器学习技术分析多模态传感器数据,准确识别复杂的手势。关节活动监测通过深入分析传感器数据来支持物理治疗和康复评估。步态分析基于机器学习算法对步态特征的识别与分析,有助于早期发现运动障碍。
尽管应用前景广阔,但机器学习在柔性可穿戴设备中的高级应用仍受到数据质量、传感器变异性、模型泛化能力和长期可靠性等关键问题的限制。在此背景下,本节深入分析了包括监督学习、无监督学习、深度学习、强化学习和元学习在内的主要方法,探讨了它们如何应对这些挑战,并讨论了各自的应用场景和固有局限性。
3.1. 健康相关柔性传感中的监督学习
监督学习是指在监督指导下机器进行学习的过程。它利用经过预先验证并准确标记的数据进行训练,然后对未观测数据进行预测提取。监督学习算法主要分为两类:分类和回归。常见的监督学习算法包括支持向量机、K-最近邻、决策树、随机森林、线性判别分析和高斯朴素贝叶斯。
支持向量机算法:支持向量机是一种基于统计学习理论的数据挖掘方法,已成功应用于医疗保健和柔性传感领域的各种任务。其核心机制是找到一个满足分类要求同时使间隔宽度最大化的最优分类超平面,以确保分类准确性。在柔性可穿戴传感器领域,SVM因其在处理小样本和高维非线性数据方面的独特优势,在姿态识别、步态分析等任务中展现出重要价值。然而,在处理大规模数据时效率较低、核函数选择依赖专家经验以及决策过程可解释性有限等问题,制约了其在需要清晰可解释性的临床应用中的深入应用。
K-最近邻算法:K-最近邻算法是一种基本的分类和回归方法。KNN算法的原理是通过计算待分类样本与已标记样本的距离,选择K个最近邻,并将其归为这些邻居中的多数类。KNN算法具有很强的理论可解释性,适用于分类和回归任务以及增量数据的实时处理。然而,它也存在计算成本高、对数据质量和异常值敏感以及性能易受初始参数选择影响等显著局限性。
决策树和随机森林算法:决策树及其变体(如随机森林)凭借其树状结构和基于规则的推理机制,特别适合处理柔性可穿戴设备产生的高维、多类复杂数据。通过构建分层决策规则,这些算法可以有效地对此类数据进行分类、回归和异常检测。决策树模型具有较强的可解释性,并且需要相对较少的训练数据。然而,它们容易过拟合且稳定性较低。随机森林分类器的优势包括减少过拟合、进行特征重要性评估以及表现出较强的抗干扰能力。但该模型相对复杂,需要大量的训练资源。
线性判别分析算法:线性判别分析是一种经典的监督学习算法,其核心思想是通过最大化类间方差与类内方差的比率,将高维数据投影到一维空间,使得同类样本紧密聚集而异类样本良好分离,最终通过阈值进行分类。LDA在有效降低高维传感数据的维数、提高分类效率方面具有优势;但其缺点在于对非线性数据适应性差,易受噪声和异常值影响,限制了其在复杂场景下的准确性。
高斯贝叶斯模型:高斯朴素贝叶斯模型假设数据服从高斯分布,并基于贝叶斯定理计算后验概率以执行分类或回归任务。在柔性可穿戴传感系统中,传感器通常收集大量的多模态连续生理信号,通过将数据建模为高斯分布并结合贝叶斯推理框架,GNB模型可以有效处理信号中的随机波动和测量噪声,从而增强分类结果的鲁棒性。GNB算法可以在小样本条件下执行增量数据训练,具有计算效率高和输出概率可解释性等优点。然而,对于具有强特征相关性或高非线性的信号,该算法的效果较差,并且在具有高维特征或复杂信号的情况下容易发生欠拟合,从而降低分类准确率。
3.2. 健康相关柔性传感中的无监督学习
在柔性可穿戴传感领域,传感器采集的生理信号通常是高维、多模态且未标记的。无监督学习可以在不依赖标签的情况下自主发现数据中的潜在模式,已成为处理此类数据的关键工具。在实际应用中,主成分分析和K-means聚类是应用最广泛的无监督学习方法。
主成分分析:PCA作为一种经典的降维方法,在柔性可穿戴传感领域有着广泛应用。它将原始多元数据投影到一组新的、不相关的主成分上,在保留主要信息的同时有效降低维度,从而简化数据结构,提高算法效率和稳定性。PCA在传感器融合和模式识别任务中特别有效。然而,由于其依赖于线性假设,可能难以捕捉复杂的非线性关系,并且在处理大规模数据时计算成本可能变得很高。
K-means聚类算法:K-means聚类算法是一种经典的无监督学习技术。其核心思想是将数据对象划分为K个簇,使得每个簇中的数据点与其各自簇中心的平方距离之和最小。K-means算法特别适用于生理信号和运动行为等大规模、高频数据的自动聚类和模式识别,有助于个体健康监测和异常检测。当聚类结构清晰且数据分布相对均匀时,K-means可以快速收敛并产生相对准确的聚类结果。然而,该算法存在对初始聚类中心敏感、难以处理非球形分布或噪声数据以及在簇数未知时性能不稳定等局限性。
3.3. 健康相关柔性传感中的深度学习
随着柔性可穿戴传感技术的快速发展,所收集的数据呈现出高维、多模态、强非线性和时序动态等复杂特征。在此背景下,依赖固定映射规则和浅层统计特征的传统机器学习方法已越来越难以捕捉数据中的深层模式和潜在关联,建模能力受到显著限制。
深度学习通过构建多层神经网络,实现自动特征提取和抽象表示,能有效建模柔性可穿戴系统产生的复杂数据,因而成为该领域的核心技术。目前应用最广泛的深度学习架构包括深度神经网络、卷积神经网络、循环神经网络以及较新发展的Transformer模型。这些架构各具优势,分别擅长静态特征建模、空间结构提取、时序信息捕获和长程依赖建模。
DNN模型:深度神经网络,有时称为多层感知机,是深度学习领域最经典和基础的模型之一。它由多个隐藏层组成,对输入数据进行一系列非线性映射和特征提取。随着隐藏层的增加,DNN学习到更复杂的映射关系和特征,使其能够比传统机器学习更有效地解决更复杂的问题。DNN是深度学习领域最具代表性的算法之一。其特点是存在多个隐藏层,因此与典型的多层感知机和传统分类器相比具有更优越的分类性能。然而,由于DNN层数的增加,需要训练的参数也更多。当训练数据集较小时,网络的参数可能无法充分学习,导致性能不佳。此外,当层数过多时,DNN可能面临梯度消失和梯度爆炸等问题。重要的是,DNN不太适合处理时间序列数据,这限制了其在语音识别和手写识别等应用中的有效性。
CNN模型:卷积神经网络最初主要用于处理空间数据,在计算机视觉领域有广泛应用。CNN的基本结构包括输入层、卷积层、池化层、全连接层和输出层。卷积层可以从空间数据中提取局部特征。池化层有助于降低中间隐藏层的维度,从而减少后续层的计算负载。在CNN中,全连接层充当分类器。作为神经网络的核心算法之一,CNN采用局部连接和权值共享策略,使用少量参数仍能取得出色的性能。在不影响分类精度的情况下,与具有全连接层的DNN相比,CNN需要训练的参数更少。因此,在处理有限数量的数据样本时,CNN应表现出比DNN更好的分类性能。
RNN模型:循环神经网络是一类专门用于处理和建模序列数据的神经网络架构。其核心优势在于隐藏层内的循环连接,这使得网络能够保留先前时间步长的信息。这种记忆机制使RNN能够捕获时间序列数据中的时序依赖性,使其在生理信号分析、语音识别和人体活动识别等领域特别有用。为了解决标准RNN在训练中经常遇到的梯度消失或爆炸问题,长短期记忆架构被提出,它引入了记忆单元和门控机制来调节信息流。这种设计使得在更长的序列上更有效地学习成为可能,并导致LSTM及其相关变体在可穿戴传感应用中的广泛采用。