章节摘录
研究背景和主题意义
在我们的日常生活中,单通道语音增强有着极其广泛的应用。在助听器、人工耳蜗和语音识别前端模块等领域,环境噪声和混响等因素常常会导致语音可懂度下降,因此语音增强显得尤为重要。特别是在助听器的应用中,Zuzana Jelčicová(Jelčicová等人,2023年)等人提出了一种可配置的ASIC加速器
模型架构介绍
与传统的时频域语音增强生成对抗网络类似,该算法的主要焦点在于生成器的设计,包括密集编码器、时频提取模块、掩码解码器、相位解码器以及位于相位解码器之后的相位增强模块等组件。
首先,密集编码器使用级联的DilatedReparamBlock膨胀卷积层来扩展感受野并提升模型的性能
模型架构介绍
密集编码器将输入特征图
编码为时频域表示,具有较低的采样率和较高的维度。它由两个卷积块和四个膨胀卷积模块以堆叠方式组合而成,用于初步提取跨时频尺度的语音多模态特征。每个卷积块包括一个2D卷积层、一个实例标准化(IN)单元和一个参数化修正线性单元(PReLU)不同数据集上的模型测试与比较
本文使用了三个数据集:VoiceBank+DEMAND(Botinhao等人,2016年)、DNS-Challenge(Reddy等人,2020年)和EAR-WHAM(Richter等人,2024年)。这些数据集的简要介绍和详细讨论见表4。
VoiceBank+DEMAND数据集分为训练集和测试集,采样率为48 kHz。该数据集的语音样本来自VoiceBank语料库,包含11,572段训练语音(由28位发音者录制)
限制与相关讨论
尽管基于生成对抗网络(GANs)的语音增强模型展现出广阔的应用前景,但它们在这一领域仍存在一些局限性。
一个主要问题是幅度谱和相位谱之间的过度补偿问题。虽然本文提出的算法在指标性能和计算效率之间取得了良好的平衡,但仍然存在残余的背景噪声
结论
本文提出了TFEM-PHASEN-MINI,这是一种基于PHASEN架构的单通道语音增强算法,受到MUSE模型的启发,并采用了离散双分支生成对抗网络。它通过短时傅里叶变换(STFT)提取幅度频率和相位频率特征,包含三个关键组件:DilatedReparamBlock模块,用于减轻密集编码器的计算负担并优化时频依赖性;时频增强和相位增强模块
未引用的参考文献
(Wahab等人,2025年;Cheng等人,2022年;Ding等人,2024年)
数据可用性
本研究使用的数据集均为公开可获取的,原始代码已包含在附件中。如有需要,可提供所有相关分析和结果,以便其他研究人员进行验证和复制。如需更多信息或访问数据,请联系此邮箱:liunannf@yeah.net。
CRediT作者贡献声明
赵一夫:撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、调查、形式分析、数据管理、概念化。董光辉:软件开发、资源获取、方法论设计、调查、资金筹措。刘楠:形式分析、数据管理、概念化。