一种基于人工智能的形态小波算法，用于医疗诊断中的语音信号去噪

时间：2026年2月24日

来源：Engineering Applications of Artificial Intelligence

编辑推荐：

语音去噪在临床诊断中至关重要，本文提出基于AI的自动编码器-解码器框架，通过自适应阈值激活函数和动态优化的MorphWavelet Filter实现噪声抑制与语音质量提升，在低信噪比条件下分别提升PESQ 12.7%和STOI 9.3%，并验证了其在真实噪声环境中的有效性。

电子与通信工程系，Sri Vasavi工程学院，Pedatadepalli，Tadepalligudem，534101，安得拉邦，印度

摘要

语音去噪在从嘈杂环境中录制的音频中提取临床有用信息方面起着重要作用。本文提出了一种基于人工智能的自编码器-解码器（AED）框架，通过利用新型MorphWavelet滤波器（MWF）进行改进的时频分解来实现鲁棒的语音增强。与依赖固定卷积或小波核的现有方法不同，我们的贡献是一种相关性驱动的小波优化（CDWO）算法，该算法可以在训练过程中自适应地调整MWF核的频谱响应，以确保增强后的输出更接近清晰语音的特性。为了提高临床实用性，我们进一步提出了一种新的自适应阈值激活函数（ATAF），旨在在有效抑制噪声的同时保留语音信号中具有诊断关键性的成分。在病理语音语料库Parkinson’s Colombian（PC-GITA）和VoiceBank-Diverse Environments Multichannel Acoustic Noise Database（DEMAND）数据集上进行的全面评估表明，我们的方法优于现有技术。在低信噪比（SNR）条件下，该方法在语音质量感知评估（PESQ）方面提高了12.7%，在短时客观可懂度（STOI）方面提高了9.3%。该框架采用轻量级架构，参数少于60万个，适用于集成到远程医疗诊断中，显示出其在实际人工智能辅助医疗应用中的潜力。

引言

在嘈杂环境中增强语音记录对于临床评估至关重要。由于背景噪声的影响，用于诊断的重要语音特征很容易被掩盖。因此，人们探索了多种去噪方法，包括传统滤波器、基于小波的技术、子空间模型以及最近出现的基于深度学习的方法。早期的方法，如频谱减法（Lebart等人，2001年），通过从语音中减去估计的噪声频谱来减少噪声。然而，这些方法常常受到残余噪声伪影的影响。为了应对这些问题，Wiener滤波引入了自适应滤波技术，旨在优化信噪比（SNR）（Abd El-Fattah等人，2014年）。然而，在非平稳噪声条件下，这种方法效果不佳。最小均方误差估计器方法通过统计建模清晰语音来提高语音可懂度（Martin，2005年），但对于快速变化的噪声，其性能也会下降。另一方面，Kalman滤波方法（Dionelis和Brookes，2019年）使用状态空间建模，在动态噪声下的应用效果较好，但需要更高的计算资源，从而限制了其在实时系统中的可行性。谱门控技术抑制低于阈值的低能量成分（Inouye等人，2014年）。尽管这种方法能更有效地抑制背景噪声，但它也会去除较柔和的语音成分，导致信号细节丢失。总之，这些传统方法在噪声抑制、计算复杂性和语音质量之间存在权衡。本文中使用的缩写见表1。

基于小波的方法在语音去噪方面确实取得了成功，因为它们允许在频率域和时间域中对信号进行分析，因此也适用于非平稳噪声分析（Cohen，1989年）。小波阈值法（Johnson等人，2007年）通过使用小波将噪声信号分解成子带，然后移除低于预定阈值的系数来实现降噪。在小波包变换（Kumar等人，2015年）中，它同时对细节系数和近似系数进行分解，从而提供更精确的噪声抑制。然而，这种方法计算复杂度较高。经验模态分解和小波去噪（EMD–WD）（Kopsinis和McLaughlin，2009年）是一种混合方法，可以有效地从噪声信号中分离噪声成分，但计算成本较高。贝叶斯小波收缩（Govindan等人，2014年）根据噪声调整阈值，有助于去除噪声同时保持语音质量，但需要仔细调整参数。尽管这些方法比传统滤波器表现更好，但它们仍然受到复杂性和参数设置的限制。

子空间方法，如奇异值分解（SVD）（Manfredi等人，2001年），也通过利用信号空间结构有效地区分噪声和语音，在语音去噪中发挥了重要作用。然而，确定需要保留的奇异值是一个问题，因为错误的选择会降低语音质量。主成分分析（PCA）（Bouzid和Ellouze，2016年）将语音信号正交投影到各个分量上以分离噪声和语音。PCA在平稳或中等非平稳条件下表现良好，但在噪声和信号子空间高度重叠的极端非平稳条件下往往失效。同样，独立成分分析（ICA）（Hsieh等人，2009年）方法假设信号源之间的统计独立性，可以有效地分离噪声和语音。然而，它可能存在收敛性和初始化敏感性问题。这些子空间方法在最小化语音可懂度损失的同时有效降低噪声，但可能仅适用于特定的噪声特性和适当的参数调整。

近年来，深度学习在解决这些问题方面显示出有希望的结果。通过使用先进的神经网络，可以在保持语音信号重要部分完整的同时减少噪声。图1展示了深度学习解决方案在各种实时操作环境中的应用。由于当前工作基于深度学习，第2节提供了关于使用神经网络进行语音去噪和重建的详细文献综述。当前工作的贡献如下：

•
小波创新：一种新型的人工智能（AI）驱动的Morphwavelet，能够动态适应临床语音模式。
•
临床特征保留：一种自适应激活函数，能够保留帕金森病的震颤和声音中断特征。
•
通过CDWO进行的小波优化：联合小波-深度学习优化使语音质量提高了12.7%。
•
临床验证：
在临床数据集上验证，可懂度提高了9.3%。
•
实际应用：
紧凑的设计（0.6百万参数）支持实时诊断。

本文的其余部分组织如下：第2节回顾了现有的基于神经网络的去噪方法。第3节介绍了带有自适应阈值机制的深度学习框架。第4节详细介绍了实验设置、数据集和评估指标。第5节讨论了结果，并与传统方法进行了比较。最后，第6节总结了主要发现。

文献综述

基于神经网络的方法已成为传统语音去噪技术的强大替代方案。与第1节讨论的早期方法不同，深度学习模型可以自动学习噪声语音中的复杂特征和模式，并有效适应不同的噪声条件。表2展示了多年来为提高语音质量和去噪而发展的各种神经网络方法。

这些方法结合了时间、频谱和空间特征

提出的方法论

所提出的去噪框架是一种针对实际噪声条件下的病理语音增强而设计的一维自编码器-解码器（AED）架构。如图2所示，该模型首先将噪声输入语音分割成重叠的帧，每个帧都通过一个由可学习MorphWavelet滤波器（MWF）驱动的一维卷积层进行处理。与传统固定核不同，MWF在运行过程中动态调整其形状、尺度和相位参数

数据集收集

PC-GITA数据集（Orozco-Arroyave等人，2014年）包含了帕金森病患者和健康对照者的语音记录，从而为测试所提出的AED框架提供了临床背景。该数据集包含了所有持续的元音、朗读段落和音节重复，涵盖了与神经退行性疾病相关的多种语音障碍类型。这使我们能够在

结果与讨论

结果部分首先展示了在PC-GITA数据集（Orozco-Arroyave等人，2014年）中对帕金森病语音的时间域去噪比较。时频分析和频谱图分析显示了频谱细节和相位保留的改善。在VoiceBank-DEMAND（Hsieh等人，2020年）上的客观评估使用了STOI、PESQ、SNR和SDR指标，随后进行了感知评分（CSIG、CBAK、COVL）和相位分析。

结论

在这项工作中，我们引入了一种新的深度学习框架，用于在具有挑战性的声学环境中实现鲁棒的语音去噪。所提出的AED网络集成了MorphWavelet滤波器（MWF）进行动态时频分解，以及自适应阈值激活函数（ATAF）来增强去噪和语音重建。在VoiceBank-DEMAND和PC-GITA数据集上的实验分析表明，该模型优于传统的和现有的深度学习方法