摘要
这项初步研究探讨了多部位声学信号分析是否能够检测吞咽后的残留物,并旨在确定最有效的传感器位置和检测参数。三个基于接触式麦克风的声学传感器和一个基于空气传导的传统音频记录器被放置在四个解剖学位置:颈静脉切迹、梨状窦附近、会厌窦附近以及右侧三角肌上方。对吞咽困难的患者在吞咽前、吞咽稀薄液体和吞咽酸奶(YP)的情况下进行了记录。从每次记录中提取了声学参数,包括谐波与噪声比(HNR)、噪声与谐波比、抖动、闪烁和共振峰频率。视频荧光吞咽研究的结果被用作检测咽部残留物的参考标准。吞咽前和吞咽酸奶后的条件产生了最可靠的声学指标来指示吞咽后残留物的存在。在所有传感器位置中,右侧会厌窦传感器的准确性最高,能够有效反映咽部残留物的情况。HNR被证明是最稳健的单一参数,其高值与残留物的存在呈矛盾关系。多部位声学分析,特别是从会厌窦传感器在吞咽前或吞咽酸奶后状态下的HNR测量,可能成为一种无创且易于实施的检测吞咽困难患者吞咽后残留物的方法。值得注意的是,会厌窦传感器表现出最高的诊断性能,这表明简化为单一传感器的方法可能是可行的,尽管这需要在更大规模的研究中进行验证。需要大规模的研究来验证这些发现并评估实时吞咽困难筛查的可行性。
引言
吞咽困难是一种常见症状,其发病率随年龄增长而增加。60岁以上的患者中,吞咽困难的患病率约为40% [1]。一项研究发现,63% 报告没有主观吞咽困难的老年人在进行视频荧光吞咽研究(VFSS)时表现出异常 [2]。VFSS 被广泛认为是评估吞咽困难的金标准。在该过程中,患者吞咽造影剂,从而能够实时观察吞咽机制 [3]。除了评估吞咽机制外,VFSS 还能检测到吞咽过程中的穿透和误吸事件。重要的是,会厌部残留物超过一定阈值与后续吞咽时误吸的风险增加有关 [4]。然而,VFSS 只能在配备荧光成像系统和必要技术基础设施的设施中进行。此外,由于辐射暴露的风险以及患者身体状况不稳定或无法保持成像所需坐姿的原因,该检查并不适用于所有患者。此外,由于时间限制,VFSS 无法连续或长期监测吞咽功能。为了克服这些限制,人们探索了各种非侵入性方法。语音分析可用于筛查误吸高风险个体 [5]。根据一项系统评价,多普勒超声在区分吞咽声音方面表现出优异的诊断准确性,麦克风在检测吞咽困难患者的声音方面也有良好的准确性,而听诊器被发现是最有效的筛查工具 [6]。然而,这些研究主要集中在检测穿透和误吸上,对吞咽后残留物的评估关注较少 [7, 8]。此外,以往的声学研究主要依赖于放置在口部的空气传导麦克风,这些麦克风容易受到环境噪声的影响,可能无法充分反映咽部结构的微妙生物力学变化。一些研究还报告说,语音变化与吞咽后残留物之间没有一致的相关性,这突显了传统基于语音的方法在残留物检测方面的局限性 [9]。为了解决这些问题,本研究引入了一种新的方法,使用基于接触式麦克风的振动传感器直接捕捉来自解剖相关部位的组织传导信号。此外,本研究系统地比较了多个解剖学传感器位置,包括会厌窦和梨状窦区域,以确定检测吞咽后残留物最有效的位置和声学参数。
方法
这项前瞻性研究于2023年4月至11月在一家三级大学的康复医学部门进行。纳入标准如下:(i) 19岁或以上且接受过VFSS检查的患者;(ii) 出现吞咽困难症状的患者;(iii) 能够持续发出“ah”音5秒的患者;(iv) 能够忍受将振动传感器放置在会厌、梨状窦和颈静脉切迹上的患者。排除标准如下:(i) 无法遵循简单指令的患者;(ii) 无法发声的患者;(iii) 由于皮肤过敏或其他相关情况无法放置传感器的患者;(iv) 未接受VFSS、语音记录或振动传感器评估的患者。还收集了患者的性别、年龄和基础疾病等医学信息。所有患者均获得了书面知情同意,研究方案得到了机构审查委员会(B-2206-761-302)的批准。
VFSS
所有参与者均接受了标准化的VFSS评估 [10, 11]。在VFSS过程中,分别给予3毫升小容量液体(SF,国际吞咽困难饮食标准化倡议 [IDDSI] 级别0)、5毫升大容量液体(LF,IDDSI 级别0)和3毫升酸奶(YP,IDDSI 级别2)。这些过程被数字化记录为视频文件以供后续分析。一位具有VFSS解读和吞咽困难管理经验的物理治疗师对记录进行了评估。会厌和梨状窦中的吞咽后残留物按四级标准进行评分:0级,无残留;1级,残留物占相应窦宽度的10%以下;2级,残留物占10%至50%以下;3级,残留物占50%以上。咽部残留物使用标准化残留物比率量表(NRRS)[12, 13] 进行评估,并分别计算会厌(NRRS_v)和梨状窦(NRRS_p)的分数。NRRS分数是残留物体积与咽腔体积的比率,根据个体颈椎大小进行了调整 [12]。用于分析的具体视频帧对应于吞咽后舌骨下降到最低位置的瞬间。所有NRRS测量均由一位具有十年以上VFSS解读经验的物理治疗师完成。
声学信号分析
在本研究中,使用了三个基于接触式麦克风的振动传感器(C411L,AKG Acoustics,奥地利)来检测体表振动,以及一个基于空气传导的标准数字音频记录器(ICD-TX660,索尼公司,日本)进行常规音频记录。C411L(AKG Acoustics,奥地利)是一种设计用于直接检测其附着表面机械振动的接触式电容麦克风。与传统空气传导麦克风不同,这种传感器通过接触来捕捉声音,特别适用于需要最小化空气噪声的应用。C411L被用作基于接触式麦克风的振动传感器。声学传感器被放置在颈静脉切迹区域(传感器I)和会厌右侧(传感器II)及梨状窦(传感器III),放置位置由VFSS过程中的实时荧光成像引导(图1)。此外,一个基于空气传导的标准数字音频记录器被放置在右侧三角肌区域(传感器IV)(图1)。
图1
声学传感器和基于空气传导的标准数字音频记录器的位置。(a) 放置示意图。(b) 在视频荧光吞咽研究(VFSS)中确认的实际放置位置
在VFSS之前以及摄入任何食物或液体之前,进行了声音和振动测量。患者被要求持续发出“ah”音5秒,作为基线值。随后,在摄入3毫升SF、5毫升LF和3毫升YP后,要求患者在每次吞咽后再次发出“ah”音5秒。
数据预处理和语音变量提取
语音数据通过多步骤预处理工作流程进行标准化。首先,应用了一种基于Python的频谱门控算法(一种噪声门控形式)进行噪声降低。根据统计和敏感性分析,阈值设定为0.8。通过将信号频谱图与阈值进行比较生成了一个掩模。该掩模在频率和时间域中进行了平滑处理,然后应用于频谱图并进行了逆变换以重建降噪后的信号。其次,使用基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise)来检测音频信号中的尖峰和异常值 [14]。该算法识别高密度点簇,并将特征明显不同的点分配到噪声簇中 [15]。通过初步测试优化了参数。对于每个音频片段,epsilon值设置在0.3到0.5之间,最小样本量设置在3到15之间 [16]。通过听觉审查验证了检测到的片段,并在确认为伪影时将其移除。最后,使用Python PyDub库中的静音检测算法去除了非语音间隔 [17]。使用Python的Parselmouth和SciPy库从预处理后的片段中提取了声学特征 [18]。测量了多种声学参数,包括最大和平均强度、基频(f0)、f0的标准差、谐波与噪声比(HNR)、噪声与谐波比(NHR)、抖动、闪烁和共振峰。
统计分析
所有统计分析均使用SPSS软件(版本22.0;SPSS Inc.,芝加哥,IL,美国)进行。由于样本量较小,数据不能假设服从正态分布。采用Mann–Whitney U检验比较了无残留物组和有残留物组之间的声学参数。使用Kendall’s tau相关性分析(带自助法)来检查吞咽后残留物与声学语音参数之间的关系。多元线性回归用于确定声学参数与NRRS_v和NRRS_p之间的关联。
参与者特征
本研究共纳入了19名患者。平均年龄为73.11±13.87岁,其中13名为男性。最常见的基础疾病是老年性吞咽困难(36.8%)和脑血管疾病(31.6%)。42.1%的患者存在残留物,而57.9%的患者没有残留物。47.4%的患者出现误吸(表1)。
表1 人口统计数据
表2 残留物组与非残留物组之间的声学语音参数比较
表2展示了残留物组与非残留物组之间的声学语音参数比较结果。仅报告了具有统计学显著差异(p<0.05)的参数。
表2 残留物组与非残留物组之间的声学语音参数比较
在吞咽前,传感器I检测到的振幅以及传感器II测量的振幅、HNR、NHR、抖动和闪烁存在显著组间差异。在SF试验后,传感器I测量的f0值和传感器III测量的振幅存在显著差异。LF试验后,传感器II测量的apq11 shimmer值也显示出显著差异。YP试验后,传感器I测量的f0值的标准差以及传感器II测量的HNR、NHR、抖动和shimmer值在各组之间存在显著差异。总体而言,吞咽前状态和YP试验产生了最显著的组间差异,而位于会厌窦(传感器II)附近的区域似乎是检测残留物相关声学变化的最敏感位置。在声学参数中,HNR、NHR、抖动和shimmer被确定为与吞咽后残留物相关的有意义指标。
鉴于数据的非参数性质,采用了带有自助法的Kendall’s Tau相关性分析来评估声学参数与总残留物(NRRS_v和NRRS_p)之间的关联。在进食前,会厌窦区域测量的声学参数(包括dB水平、HNR、NHR、抖动和shimmer)之间存在显著相关性,Kendall’s tau系数范围为0.42至0.56。SF摄入后,颈切迹附近测量的f0值和梨状窦附近测量的dB水平显示出显著关联。LF摄入后,会厌窦区域测量的shimmer值也显示出显著相关性。同样,在YP摄入后,会厌窦区域测量的HNR、NHR、抖动和shimmer值表现出中等程度的关联,Kendall’s tau系数范围为0.43至0.45(表3)。
进行了多元线性回归分析,以确定与VFSS中观察到的NRRS_v和NRRS_p相关的声学参数。得到的回归模型如下:$$\rm NRRS_v = -0.12 + 0.009(Pre(II)HNR)$$多元线性回归分析未发现声学参数中能显著预测NRRS_p的指标。这些发现表明,从语音分析中得出的特定声学参数可能在估计吞咽后的会厌残留物方面具有预测价值。
在这项初步研究中,我们探讨了多站点声学信号分析是否能够反映吞咽后的残留物,并试图确定最能捕捉这些信息的传感器位置。结果表明,吞咽前状态和YP试验提供了最可靠的吞咽后残留物声学指标。附着在会厌窦区域的声学传感器最准确地反映了残留物的存在。此外,在分析的各种信号特征中,HNR是最可靠的指标。与以往主要依赖空气传导麦克风检测吸入相关语音变化的研究不同,本研究使用了基于接触式麦克风的振动传感器,直接捕捉组织传导的信号,从而减少了环境噪声的影响,并能够检测到与残留物相关的微妙生物力学变化。此外,这是首次系统地比较多个解剖学上不同的传感器位置以检测残留物,并确定会厌区域测量的HNR作为一个潜在的关键声学生物标志物。总体而言,这些发现表明,在吞咽前状态或YP吞咽后,分析附着在会厌区域的声学传感器测量的HNR可能是检测吞咽后残留物的最合适方法。据我们所知,这是首次使用放置在多个解剖位置的声学传感器来分析吞咽后残留物的研究。
本研究的结果表明,吞咽前状态和YP试验提供了最可靠的吞咽后残留物声学指标。在吞咽前状态,吞咽困难的患者可能在咽部空间有积聚的分泌物,如痰液[19]。这些分泌物对应于IDDSI等级1-2,它们的存在可能导致咽部滞留,从而影响声学测量结果[11]。在YP情况下,其滞留的可能性高于稀薄液体(IDDSI等级0)[20]。这可能解释了为什么吞咽前和吞咽后的状态在这项研究中更准确地反映了残留物的程度。
在这项研究中,使用了三种基于接触式麦克风的振动传感器和一种基于空气传导的传统音频记录器。传感器分别放置在颈切迹、梨状窦和会厌窦附近以及右侧三角肌上。其中,放置在会厌窦右侧的传感器(传感器II)最准确地反映了咽部滞留的存在。这一发现可以这样解释:从解剖学上讲,会厌窦位于会厌之上,而梨状窦位于会厌之下[21]。在这项研究中,参与者被要求在吞咽后发出元音/a/。根据先前的研究,在发元音/a/时,咽部和会厌之间的开口形状类似于发咽辅音时的开口,但开口更大[22]。然而,当会厌窦中有残留物时,滞留物质的重量可能会对会厌产生轻微的压力,导致会厌被动位移。这种微妙的会厌运动可以通过放置在会厌窦附近的传感器检测到。此外,会厌残留物引起的阻尼效应可能会将微小的振动传递给周围组织,而这些振动被会厌传感器比其他传感器更敏感地捕捉到[23]。这些综合因素可能解释了为什么放置在会厌区域的传感器(传感器II)在四个传感器中最为准确地反映了咽部滞留的程度。
尽管在这项初步研究中采用了多传感器设置进行探索性研究,但我们的结果一致表明,放置在会厌区域的传感器显示出最高的诊断性能。这一发现表明,针对会厌区域的简化单传感器配置可能足以检测吞咽后的残留物,从而提高临床可行性,尽管这需要在更大规模的研究中得到验证。未来的研究应进一步验证这种单传感器方法,并探索其在实际床边或可穿戴环境中的适用性。
在这项研究中,分析的各种信号特征中,HNR是检测吞咽后残留物最可靠的指标。此外,NHR、抖动和shimmer也与吞咽后残留物相关。通常,较高的HNR与清晰稳定的语音质量相关,而增加的抖动表明声带振动不规则,常表现为声音颤抖或不稳定。同样,高shimmer值反映了振幅的不稳定性,通常导致声音粗糙、嘶哑或带有明显音量变化。然而,在这项研究中,从会厌窦区域记录的声学参数在存在咽部残留物的情况下却显示出高HNR和低NHR、抖动和shimmer值。这一发现与传统预期相反,表明当传感器放置在会厌区域附近时,积聚的残留物可能起到生物阻尼器的作用,对局部声音振动产生阻尼效果。这种阻尼可能会抑制高频噪声成分和不规则性的传播,从而导致NHR、抖动和shimmer值降低,尽管存在咽部残留物。
从临床角度来看,这些发现突显了基于会厌窦的声学监测作为一种无创且无辐射的方法来检测咽部残留物的潜力。这种方法可以作为视频透视或纤维内镜评估不可用时的辅助筛查工具,例如在床边评估、社区-based吞咽困难筛查或家庭康复计划中。在VFSS不可用或不可行的情况下,这种方法可能特别有用。
这项研究有几个局限性。首先,样本量较小,限制了我们的发现的可推广性。其次,患者群体在基础医疗条件方面存在异质性,这可能影响了结果。第三,尽管先前的研究表明较稠的食物质与更多的吞咽后残留物相关,但本研究仅评估了液体和酸奶的稠度[24]。研究中没有包括固体食物或具有不同粘度的材料,这可能限制了我们在更广泛的吞咽挑战中评估残留物的能力。
这项初步研究表明,分析附着在会厌区域的声学传感器在吞咽前状态或YP摄入后测量的HNR是检测吞咽后残留物最合适的方法。在吞咽前状态,吞咽困难的患者可能在咽部空间有积聚的分泌物,如痰液[19]。这些分泌物对应于IDDSI等级1-2,它们的存在可能导致咽部滞留,从而影响声学测量结果[11]。在YP情况下,其滞留的可能性高于稀薄液体(IDDSI等级0)[20]。这可能解释了为什么吞咽前和吞咽后的状态在这项研究中更准确地反映了残留物的程度。
在这项研究中,使用了三种基于接触式麦克风的振动传感器和一种基于空气传导的传统音频记录器。传感器分别放置在颈切迹、梨状窦和会厌窦附近以及右侧三角肌上。其中,放置在会厌窦右侧的传感器(传感器II)最准确地反映了咽部滞留的存在。这一发现可以这样解释:从解剖学上讲,会厌窦位于会厌之上,而梨状窦位于会厌之下[21]。在这项研究中,参与者被要求在吞咽后发出元音/a/。根据先前的研究,在发元音/a/时,咽部和会厌之间的开口形状类似于发咽辅音时的开口,但开口更大[22]。然而,当会厌窦中有残留物时,滞留物质的重量可能会对会厌产生轻微的压力,导致会厌被动位移。这种微妙的会厌运动可以通过放置在会厌窦附近的传感器检测到。此外,会厌残留物引起的阻尼效应可能会将微小的振动传递给周围组织,这些振动被会厌传感器比其他传感器更敏感地捕捉到[23]。这些综合因素可能解释了为什么放置在会厌区域的传感器(传感器II)在四个传感器中最为准确地反映了咽部滞留的程度。
尽管在这项初步研究中采用了多传感器设置进行探索性研究,但我们的结果一致表明,放置在会厌区域的传感器显示出最高的诊断性能。这一发现表明,针对会厌区域的简化单传感器配置可能足以检测吞咽后的残留物,从而提高临床可行性,尽管这需要在更大规模的研究中得到验证。未来的研究应进一步验证这种单传感器方法,并探索其在实际床边或可穿戴环境中的适用性。
在这项研究中,分析的各种信号特征中,HNR是检测吞咽后残留物最可靠的指标。此外,NHR、抖动和shimmer也与吞咽后残留物相关。通常,较高的HNR与清晰稳定的语音质量相关,而增加的抖动表明声带振动不规则,常表现为声音颤抖或不稳定。同样,高shimmer值反映了振幅的不稳定性,通常导致声音粗糙、嘶哑或带有明显的音量变化。然而,在这项研究中,从会厌窦区域记录的声学参数在存在咽部残留物的情况下却显示出高HNR和低NHR、抖动和shimmer值。这一发现与传统预期相反,表明当传感器放置在会厌区域附近时,积聚的残留物可能起到生物阻尼器的作用,对局部声音振动产生阻尼效果。这种阻尼可能会抑制高频噪声成分和不规则性的传播,从而导致NHR、抖动和shimmer值降低,尽管存在咽部残留物。
从临床角度来看,这些发现突显了基于会厌窦的声学监测作为一种无创且无辐射的方法来检测咽部残留物的潜力。这种方法可以作为视频透视或纤维内镜评估不可用时的辅助筛查工具,例如在床边评估、社区-based吞咽困难筛查或家庭康复计划中。在VFSS不可用或不可行的情况下,这种方法可能特别有用。
这项研究有几个局限性。首先,样本量较小,限制了我们发现的可推广性。其次,患者群体在基础医疗条件方面存在异质性,这可能影响了结果。第三,尽管先前的研究表明较稠的食物质与更多的吞咽后残留物相关,但本研究仅评估了液体和酸奶的稠度[24]。研究中没有包括固体食物或具有不同粘度的材料,这可能限制了我们在更广泛的吞咽挑战中评估残留物的能力。
这项初步研究表明,分析附着在会厌区域的声学传感器在吞咽前状态或YP摄入后测量的HNR是检测吞咽后残留物最合适的方法。尽管在这项研究中采用了多站点方法,但结果表明,结合HNR分析的单个会厌传感器可能提供一种临床可行且简化的方法来检测吞咽后的残留物。需要进一步的大规模研究来验证这些结果,完善传感器放置协议,并探索将这种方法整合到实时吞咽困难评估系统中。