在现实世界的声学环境中,语音信号经常受到背景噪声、混响和带宽限制等多种失真的影响。尽管在语音增强和带宽扩展(BWE)方面已经进行了大量研究,但大多数现有工作都集中在单一类型的失真上,例如去噪(Xu等人,2014年;Park和Lee,2017年;Tan和Wang,2018年;Luo和Mesgarani,2019年;Defossez等人,2020年;Yang和Chang,2023年;Saleem等人,2025年;Zhang等人,2025年;Chen等人,2025年)、去混响(Zhao等人,2020年;Ernst等人,2018年;Shi等人,2020年)或带宽扩展(Li和Lee,2015年;Nguyen等人,2022年)。然而,在实际应用中,这些失真往往同时存在,因此单一用途的系统往往无法满足需求。
最近在通用语音恢复领域取得的进展出现了能够处理多种类型失真的模型,如噪声、混响和带宽减少(Liu等人,2022年;Byun等人,2023年;Kim等人,2023年;Serrà等人,2022年;Scheibler等人,2024年)。尽管这些方法取得了重要进展,但它们通常依赖于特定任务的模块或分阶段处理流程,或者需要更大的模型容量,尤其是在生成模型方面。这一领域的一个关键挑战在于如何平衡抑制(如噪声和混响去除)与重建(如带宽扩展)这两种截然不同的需求。基于掩蔽的方法在抑制方面效果显著,而基于映射的生成方法对于重建至关重要。大多数现有的判别模型只专注于其中一种任务,限制了它们在统一框架内高效处理两种任务的能力。
为了解决这些限制,我们提出了DBP-Net,这是一个双分支并行网络,它在统一的架构中明确地模拟了增强和恢复这两种不同的任务。该模型包含两个并行分支:一个基于掩蔽的分支负责失真抑制,另一个基于映射的分支负责频谱重建。重要的是,这两个分支共享参数,并通过跨分支融合机制相连,使得基于映射的分支能够利用掩蔽分支的中间表示。这种结构促进了互补学习,使网络能够在复杂失真场景下自适应地平衡抑制和重建功能。DBP-Net的创新之处在于它通过明确的分支协作和参数共享,实现了两种不同学习范式的统一。与以往分别处理失真或依赖顺序处理阶段的方法不同,DBP-Net能够同时、高效且可解释地处理多种类型的失真。
实验结果表明,DBP-Net在各种通用语音恢复基准测试中表现出强大的性能,同时保持了较低的参数数量。其架构和性能的详细分析分别在第2节“模型描述”和第3节“实验”中提供。