一种用于噪声语音识别的强大框架，该框架采用了频率引导的Swin Transformer技术

时间：2026年1月30日

来源：Computer Speech & Language

编辑推荐：

提出结合卷积神经网络（CNN）和频率引导的Swin Transformer（FG-Swin）的混合架构，用于提升嘈杂环境下的语音识别性能。FG-MSA机制通过动态关注关键频率成分增强噪声鲁棒性，实验表明在Aurora-2和NSC数据集上准确率提升2.49%，WER降低8%，优于传统DNN、LSTM及基线Transformer模型。

Noussaiba Djeffal|Djamel Addou|Hamza Kheddar|Sid Ahmed Selouani

阿尔及利亚阿尔及尔胡阿里·布迈丁科学技术大学（USTHB）语音通信与信号处理实验室

摘要

传统的自动语音识别（ASR）系统在处理多样化和噪声环境时常常遇到困难，背景干扰会显著降低识别精度。本文提出了一种新的噪声语音识别方法，该方法结合了卷积神经网络（CNN）和Swin Transformer以及频率引导的多头自注意力（FG-MSA）架构。该方法旨在解决噪声环境中的语音识别问题，重点是从噪声音频中提取字符级转录内容。CNN能够高效提取局部特征，而Swin Transformer凭借其分层结构和移动窗口机制，能够捕捉局部和长距离依赖关系。FG-MSA机制用于引导注意力机制关注对语音识别最相关的频率成分，从而提高在噪声条件下的鲁棒性。实验表明，该方法在噪声环境中的ASR性能和效率得到了提升。在Aurora-2数据集和噪声语音命令（NSC）数据集上的评估结果显示，提出的CNN-FG-Swin Transformer在Aurora-2数据集上的平均准确率为87.19%，比基线Swin Transformer高出2.49%；在所有数据集上的平均准确率为87.01%，优于所有对比的现有技术。在NSC数据集（-9 dB噪声水平）中，其词错误率（WER）为36.20%，比端到端胶囊网络模型（DNN 38.63%和LSTM 69.09%）的表现更好，证明了其在实际应用中的鲁棒性。

引言

近年来，自动语音识别（ASR）取得了显著进展，准确性和适应性都有所提高（Djeffal et al., 2023b）。这些发展促进了语音技术的广泛应用，使得人机交互更加直观。如今，虚拟助手和语音控制设备已变得普遍，凸显了ASR在提升用户体验方面的变革性作用（Djeffal et al., 2024a, Hamza et al., 2023）。然而，ASR系统在噪声环境中仍面临保持可靠性和准确性的挑战（Hinton et al., 2012）。背景噪声会改变语音信号的声学特性，导致错误率上升和系统性能下降。此外，噪声可能掩盖重要的语音线索，使系统难以区分发音相似的单词，还可能因语音重叠或突然的瞬态声音（如汽车喇叭、警报声）引入错误激活或误解。噪声还会降低传统特征提取技术的效果，因为这些技术依赖于干净的输入来进行准确识别，并可能影响说话人识别和语言建模。研究人员探索了多种策略来应对这些挑战，包括先进的信号处理技术和鲁棒的特征提取方法。随着深度学习（DL）的发展，卷积神经网络（CNN）和循环神经网络（RNN，包括长短期记忆网络LSTM）等模型通过自动学习数据中的复杂特征和时间模式，显著提升了ASR性能。然而，这些基于DL的方法在噪声环境中仍存在局限性，尤其是在噪声改变语音动态或需要跨长时间框架的上下文时。因此，需要更先进的架构。基于Transformer的架构在自然语言处理和计算机视觉任务中表现出色（Kheddar et al., 2025a, Vaswani et al., 2017, Kheddar, 2025），也成为了一种有前景的解决方案。它们的多头自注意力（MSA）机制能够有效捕捉长距离依赖关系和上下文关系，非常适合用于ASR任务。

本文提出了一种利用基于Transformer的MSA来提升噪声环境下ASR系统效果的新方法。通过结合CNN和Swin Transformer架构，我们提出了一种创新方法来应对噪声环境中的语音识别挑战。虽然CNN在提取局部特征方面表现优异（Djeffal et al., 2023a），但Swin Transformer在捕捉长距离依赖关系和分层表示方面具有优势，两者的结合特别适合这一任务。与主要关注关键词检测（Sun et al., 2024）、语音增强（Jiang et al., 2023）或情感识别（Liao and Shen, 2023, Liu et al., 2025）等任务的现有研究不同，我们的模型通过引入移动窗口机制和频率引导的MSA（FG-MSA），增强了ASR任务中对噪声输入的处理能力，提高了序列预测的上下文特征提取效果。

所提出的FG-MSA使模型能够动态关注关键频率带，有效捕捉与语音相关的特征，同时减轻噪声的影响。这种针对性方法进一步提升了模型在复杂声学环境中的鲁棒性。本文在噪声条件下的字符级转录方面做出了独特而原创的贡献。

本文的主要贡献如下：

–
提出了一种新的混合架构，将CNN与频率引导的Swin Transformer（FG-Swin）结合，以提升噪声环境下的ASR性能。CNN提取低级声学特征，而Swin Transformer捕捉长距离依赖关系，确保语音表示的鲁棒性。
–
在Swin Transformer模块中引入了一种新的FG-MSA机制，以改善模型对相关频率成分的关注能力，从而提高噪声鲁棒性和语音清晰度。该方法动态调整注意力分配，抑制噪声的同时保留关键语音特征。
–
将提出的方法与领先的DL模型进行对比测试，使用Aurora-2数据集（孤立单词和完整数据集）以及噪声语音命令（NSC）数据集，通过词识别准确率和词错误率（WER）等关键指标评估其性能，突出了CNN-FG Swin Transformer模型的优势。
–
验证了所提出方法的效率，其在多种噪声条件下的有效性得到了验证，确保模型能良好适应实际噪声语音场景。

本文的其余部分结构如下：第2节概述相关研究；第3节介绍基线Swin Transformer的背景；第4节介绍提出的CNN-FG-Swin Transformer方法；第5节展示实验结果；第6节总结工作并探讨未来研究方向。

基线Swin Transformer模块

如图1所示，Swin Transformer模块在基于窗口的MSA（W-MSA）和基于移动窗口的MSA（SW-MSA）之间切换（Park et al., 2025）。SW-MSA模块通过自定义的ShiftedWindowLayer对特征图进行空间移动，然后再应用MSA，从而实现跨窗口交互，补充了W-MSA中的局部注意力（Sun et al., 2024）。实际应用中，Swin Transformer模块

提出的方法

该架构的核心创新在于整合了FG-Swin Transformer模块，扩展了传统Swin Transformer的功能，通过结合FG-MSA实现了这一目标。该架构用于噪声环境下的ASR，通过CNN进行初始特征提取，然后通过FG-Swin Transformer模块、W-MSA、SW-MSA和多层感知器（MLP）进一步增强上下文理解，如图2所示。

实验

为了评估所提出模型在噪声语音识别任务中的有效性，使用标准基准数据集进行了系列实验。实验旨在评估在不同噪声条件、说话人变化和信噪比（SNR）水平下的性能。我们将该方法与基线模型进行比较，以展示在多种测试场景下的鲁棒性和准确性提升。

结论

本研究提出了FG-Swin Transformer用于噪声语音识别，利用频率引导机制在频谱域增强特征提取的能力。FG-Swin Transformer架构结合了频率引导的注意力和Swin Transformer的基于窗口的自注意力机制，解决了语音信号中噪声失真的问题。在Aurora-2数据集和NSC数据集上的实验结果表明，FG-Swin

CRediT作者贡献声明

Noussaiba Djeffal：撰写 – 审稿与编辑、初稿撰写、可视化、验证、资源准备、方法论设计、调查、数据分析、概念构建。Djamel Addou：撰写 – 审稿与编辑、初稿撰写、可视化、验证、资源准备、项目管理、方法论设计、调查、数据分析、概念构建。Hamza Kheddar：撰写 – 审稿与编辑、初稿撰写、可视化、验证