近年来,自动语音识别(ASR)取得了显著进展,准确性和适应性都有所提高(Djeffal et al., 2023b)。这些发展促进了语音技术的广泛应用,使得人机交互更加直观。如今,虚拟助手和语音控制设备已变得普遍,凸显了ASR在提升用户体验方面的变革性作用(Djeffal et al., 2024a, Hamza et al., 2023)。然而,ASR系统在噪声环境中仍面临保持可靠性和准确性的挑战(Hinton et al., 2012)。背景噪声会改变语音信号的声学特性,导致错误率上升和系统性能下降。此外,噪声可能掩盖重要的语音线索,使系统难以区分发音相似的单词,还可能因语音重叠或突然的瞬态声音(如汽车喇叭、警报声)引入错误激活或误解。噪声还会降低传统特征提取技术的效果,因为这些技术依赖于干净的输入来进行准确识别,并可能影响说话人识别和语言建模。研究人员探索了多种策略来应对这些挑战,包括先进的信号处理技术和鲁棒的特征提取方法。随着深度学习(DL)的发展,卷积神经网络(CNN)和循环神经网络(RNN,包括长短期记忆网络LSTM)等模型通过自动学习数据中的复杂特征和时间模式,显著提升了ASR性能。然而,这些基于DL的方法在噪声环境中仍存在局限性,尤其是在噪声改变语音动态或需要跨长时间框架的上下文时。因此,需要更先进的架构。基于Transformer的架构在自然语言处理和计算机视觉任务中表现出色(Kheddar et al., 2025a, Vaswani et al., 2017, Kheddar, 2025),也成为了一种有前景的解决方案。它们的多头自注意力(MSA)机制能够有效捕捉长距离依赖关系和上下文关系,非常适合用于ASR任务。
本文提出了一种利用基于Transformer的MSA来提升噪声环境下ASR系统效果的新方法。通过结合CNN和Swin Transformer架构,我们提出了一种创新方法来应对噪声环境中的语音识别挑战。虽然CNN在提取局部特征方面表现优异(Djeffal et al., 2023a),但Swin Transformer在捕捉长距离依赖关系和分层表示方面具有优势,两者的结合特别适合这一任务。与主要关注关键词检测(Sun et al., 2024)、语音增强(Jiang et al., 2023)或情感识别(Liao and Shen, 2023, Liu et al., 2025)等任务的现有研究不同,我们的模型通过引入移动窗口机制和频率引导的MSA(FG-MSA),增强了ASR任务中对噪声输入的处理能力,提高了序列预测的上下文特征提取效果。
所提出的FG-MSA使模型能够动态关注关键频率带,有效捕捉与语音相关的特征,同时减轻噪声的影响。这种针对性方法进一步提升了模型在复杂声学环境中的鲁棒性。本文在噪声条件下的字符级转录方面做出了独特而原创的贡献。
本文的主要贡献如下:
- –
提出了一种新的混合架构,将CNN与频率引导的Swin Transformer(FG-Swin)结合,以提升噪声环境下的ASR性能。CNN提取低级声学特征,而Swin Transformer捕捉长距离依赖关系,确保语音表示的鲁棒性。
- –
在Swin Transformer模块中引入了一种新的FG-MSA机制,以改善模型对相关频率成分的关注能力,从而提高噪声鲁棒性和语音清晰度。该方法动态调整注意力分配,抑制噪声的同时保留关键语音特征。
- –
将提出的方法与领先的DL模型进行对比测试,使用Aurora-2数据集(孤立单词和完整数据集)以及噪声语音命令(NSC)数据集,通过词识别准确率和词错误率(WER)等关键指标评估其性能,突出了CNN-FG Swin Transformer模型的优势。
- –
验证了所提出方法的效率,其在多种噪声条件下的有效性得到了验证,确保模型能良好适应实际噪声语音场景。
本文的其余部分结构如下:第2节概述相关研究;第3节介绍基线Swin Transformer的背景;第4节介绍提出的CNN-FG-Swin Transformer方法;第5节展示实验结果;第6节总结工作并探讨未来研究方向。