在嘈杂环境中增强语音记录对于临床评估至关重要。由于背景噪声的影响,用于诊断的重要语音特征很容易被掩盖。因此,人们探索了多种去噪方法,包括传统滤波器、基于小波的技术、子空间模型以及最近出现的基于深度学习的方法。早期的方法,如频谱减法(Lebart等人,2001年),通过从语音中减去估计的噪声频谱来减少噪声。然而,这些方法常常受到残余噪声伪影的影响。为了应对这些问题,Wiener滤波引入了自适应滤波技术,旨在优化信噪比(SNR)(Abd El-Fattah等人,2014年)。然而,在非平稳噪声条件下,这种方法效果不佳。最小均方误差估计器方法通过统计建模清晰语音来提高语音可懂度(Martin,2005年),但对于快速变化的噪声,其性能也会下降。另一方面,Kalman滤波方法(Dionelis和Brookes,2019年)使用状态空间建模,在动态噪声下的应用效果较好,但需要更高的计算资源,从而限制了其在实时系统中的可行性。谱门控技术抑制低于阈值的低能量成分(Inouye等人,2014年)。尽管这种方法能更有效地抑制背景噪声,但它也会去除较柔和的语音成分,导致信号细节丢失。总之,这些传统方法在噪声抑制、计算复杂性和语音质量之间存在权衡。本文中使用的缩写见表1。
基于小波的方法在语音去噪方面确实取得了成功,因为它们允许在频率域和时间域中对信号进行分析,因此也适用于非平稳噪声分析(Cohen,1989年)。小波阈值法(Johnson等人,2007年)通过使用小波将噪声信号分解成子带,然后移除低于预定阈值的系数来实现降噪。在小波包变换(Kumar等人,2015年)中,它同时对细节系数和近似系数进行分解,从而提供更精确的噪声抑制。然而,这种方法计算复杂度较高。经验模态分解和小波去噪(EMD–WD)(Kopsinis和McLaughlin,2009年)是一种混合方法,可以有效地从噪声信号中分离噪声成分,但计算成本较高。贝叶斯小波收缩(Govindan等人,2014年)根据噪声调整阈值,有助于去除噪声同时保持语音质量,但需要仔细调整参数。尽管这些方法比传统滤波器表现更好,但它们仍然受到复杂性和参数设置的限制。
子空间方法,如奇异值分解(SVD)(Manfredi等人,2001年),也通过利用信号空间结构有效地区分噪声和语音,在语音去噪中发挥了重要作用。然而,确定需要保留的奇异值是一个问题,因为错误的选择会降低语音质量。主成分分析(PCA)(Bouzid和Ellouze,2016年)将语音信号正交投影到各个分量上以分离噪声和语音。PCA在平稳或中等非平稳条件下表现良好,但在噪声和信号子空间高度重叠的极端非平稳条件下往往失效。同样,独立成分分析(ICA)(Hsieh等人,2009年)方法假设信号源之间的统计独立性,可以有效地分离噪声和语音。然而,它可能存在收敛性和初始化敏感性问题。这些子空间方法在最小化语音可懂度损失的同时有效降低噪声,但可能仅适用于特定的噪声特性和适当的参数调整。
近年来,深度学习在解决这些问题方面显示出有希望的结果。通过使用先进的神经网络,可以在保持语音信号重要部分完整的同时减少噪声。图1展示了深度学习解决方案在各种实时操作环境中的应用。由于当前工作基于深度学习,第2节提供了关于使用神经网络进行语音去噪和重建的详细文献综述。当前工作的贡献如下:
- •
小波创新:一种新型的人工智能(AI)驱动的Morphwavelet,能够动态适应临床语音模式。
- •
临床特征保留:一种自适应激活函数,能够保留帕金森病的震颤和声音中断特征。
- •
通过CDWO进行的小波优化:联合小波-深度学习优化使语音质量提高了12.7%。
- •
临床验证:
在临床数据集上验证,可懂度提高了9.3%。
- •
实际应用:
紧凑的设计(0.6百万参数)支持实时诊断。
本文的其余部分组织如下:第2节回顾了现有的基于神经网络的去噪方法。第3节介绍了带有自适应阈值机制的深度学习框架。第4节详细介绍了实验设置、数据集和评估指标。第5节讨论了结果,并与传统方法进行了比较。最后,第6节总结了主要发现。
文献综述
基于神经网络的方法已成为传统语音去噪技术的强大替代方案。与第1节讨论的早期方法不同,深度学习模型可以自动学习噪声语音中的复杂特征和模式,并有效适应不同的噪声条件。表2展示了多年来为提高语音质量和去噪而发展的各种神经网络方法。
这些方法结合了时间、频谱和空间特征
提出的方法论
所提出的去噪框架是一种针对实际噪声条件下的病理语音增强而设计的一维自编码器-解码器(AED)架构。如图2所示,该模型首先将噪声输入语音分割成重叠的帧,每个帧都通过一个由可学习MorphWavelet滤波器(MWF)驱动的一维卷积层进行处理。与传统固定核不同,MWF在运行过程中动态调整其形状、尺度和相位参数
数据集收集
PC-GITA数据集(Orozco-Arroyave等人,2014年)包含了帕金森病患者和健康对照者的语音记录,从而为测试所提出的AED框架提供了临床背景。该数据集包含了所有持续的元音、朗读段落和音节重复,涵盖了与神经退行性疾病相关的多种语音障碍类型。这使我们能够在
结果与讨论
结果部分首先展示了在PC-GITA数据集(Orozco-Arroyave等人,2014年)中对帕金森病语音的时间域去噪比较。时频分析和频谱图分析显示了频谱细节和相位保留的改善。在VoiceBank-DEMAND(Hsieh等人,2020年)上的客观评估使用了STOI、PESQ、SNR和SDR指标,随后进行了感知评分(CSIG、CBAK、COVL)和相位分析。
结论
在这项工作中,我们引入了一种新的深度学习框架,用于在具有挑战性的声学环境中实现鲁棒的语音去噪。所提出的AED网络集成了MorphWavelet滤波器(MWF)进行动态时频分解,以及自适应阈值激活函数(ATAF)来增强去噪和语音重建。在VoiceBank-DEMAND和PC-GITA数据集上的实验分析表明,该模型优于传统的和现有的深度学习方法
CRediT作者贡献声明
V V Satyanarayana S:撰写——原始草稿,概念构思。
Murali Krishna B.:撰写——审阅与编辑,撰写——原始草稿,软件,方法论,形式分析,数据整理。
Baboji K.:撰写——审阅与编辑,验证,监督,形式分析。