D-CrossNet：一种具有自适应多光谱联合损失的双路径交叉注意力网络，用于在无人机噪声环境中增强语音质量

时间：2026年5月29日

来源：Speech Communication

编辑推荐：

张涛|田瑞峰|焦阳|张伟伟|耿彦章天津大学电气信息工程学院与德州仪器DSP合作实验室，中国天津300072摘要基于无人机的音频采集结合语音增强技术能够实现高质量的长距离音频捕获。然而，声源衰减和无人机自身的噪声导致信噪比（SNR）极低，这对语音增强提出了严峻挑战。为了解决这个问题

张涛|田瑞峰|焦阳|张伟伟|耿彦章

天津大学电气信息工程学院与德州仪器DSP合作实验室，中国天津300072

摘要

基于无人机的音频采集结合语音增强技术能够实现高质量的长距离音频捕获。然而，声源衰减和无人机自身的噪声导致信噪比（SNR）极低，这对语音增强提出了严峻挑战。为了解决这个问题，本研究提出了一种专门的语音增强网络，并结合了多谱联合损失函数。这两个组件协同工作，在极低的信噪比环境下实现了稳健的语音增强。所提出的网络利用噪声参考信号与含噪语音之间的相关性，实现了高效的噪声-语音分离和高保真度的语音恢复。损失函数采用三重约束优化，以确保频谱匹配，减轻能量波动干扰，并适应不同捕获距离下的信噪比变化。广泛的仿真验证了该网络和损失函数在无人机噪声污染环境中的可行性和有效性。

引言

声学信号是信息交换的基本媒介，在工业操作和日常生活中发挥着关键作用。它在人际通信、人机交互等领域有广泛的应用。高质量的语音采集是下游音频处理任务的先决条件，这凸显了基于无人机的远程声音采集的重要价值。传统的地面音频采集面临多个限制：设备通常固定在一个位置，限制了覆盖范围，并且容易受到环境因素的影响。复杂的地形或障碍物会显著降低音频质量。配备麦克风的无人机有效克服了这些限制。它们可以轻松到达人类难以到达的区域，如山区、河岸和灾区，同时还能实现灵活的定位。然而，无人机在飞行过程中会产生大量的固有噪声。此外，安装在无人机上的麦克风通常距离说话者较远。例如，主流的消费级无人机在飞行时的声压级（SPL）约为85分贝。即使地面说话者大声喊叫（SPL约为90分贝），传播到高空无人机麦克风的声音也会因距离而衰减到70分贝以下。在这种条件下，捕获的音频具有极低的信噪比（SNR），因此需要先进的降噪处理（Fernandes和Santos，2015年；Yen等人，2023年）。

目前，涉及无人机的声学研究主要集中在减少飞机自身产生的自噪声上，而关于无人机音频采集和语音增强的研究仍处于起步阶段（Chen等人，2024a）。研究主要集中在两个方向：无人机自噪声控制和信号处理方法。

无人机自噪声控制策略大致分为电子方法和机械方法。电子控制方法通过操纵噪声信号的相位来实现局部噪声抑制，主要包括相位同步技术和主动噪声消除（ANC）。前者使用相位同步器分析螺旋桨叶片的相对位置并调整角度，使螺旋桨旋转速度和相位精确同步，从而产生反相声波（Kurtz和Marte，1970年；Štorch等人，2016年；Jones和Fullert，1986年；Hammond等人，1998年；Bi等人，2021年；Bi等人，2022年）。相比之下，ANC利用参考麦克风捕获环境噪声，然后使用机载扬声器发射反噪声信号。该信号经过精确计算，与原始噪声相位相差180度，从而实现噪声消除（Leventhal和Wong，1988年；Nelson和Elliott，1992年；Hansen等人，2010年；Chun等人，2019a；Bi等人，2025年；Steiner等人，2025年）。机械设计方法通过有针对性的结构修改来减少或吸收噪声，包括特定于螺旋桨的方法，如增加叶片数量以降低所需推力所需的旋转速度，或基于仿生原理优化空气动力学叶片设计（Wei等人，2020年；Bachmann和Wagner，2011年；Tong等人，2018年；Ning等人，2017年；Oleson等人，1998年；Chaitanya等人，2016年）。材料和结构方法涉及将吸音材料集成到无人机结构中以吸收声能，或安装声反射器将无人机噪声导向远离敏感区域（Miljković，2018a；Miljković，2018b）。空气动力学布局方法，如优化机身几何形状、机翼配置和控制面，减少空气动力湍流和阻力，从而降低空气动力噪声（Wagner等人，2017年）。尽管这些方法通过减少固有噪声间接提高了语音信噪比，但大多数方法需要重新设计无人机硬件结构。这限制了在现有平台上的应用，缺乏足够的灵活性，并且由于它们不是专门为语音增强设计的，因此在提高语音清晰度和质量方面效果不佳。

为了解决这个问题，研究人员正在探索信号级处理以克服瓶颈，无人机语音增强研究逐渐展开。这主要涉及两个技术方向：基于传统信号处理的无人机语音增强和基于机器学习的无人机语音增强。在传统信号处理方法中，应用于无人机语音增强的技术主要包括自适应主动噪声控制、波束成形和维纳滤波以及盲源分离（Yoon等人，2016年；Wang和Cavallaro，2020年）。

机器学习（ML）方法通常比传统信号处理方法表现出更好的语音增强性能。关键研究包括：Chun等人提出了一种基于深度卷积自编码器的降噪方法。该技术使用全卷积神经网络提取目标语音信号，通过自编码器的编码-解码过程压缩和重构输入信号，并利用卷积神经网络处理语音的时频特性，显著降低了无人机飞行噪声和风噪声（Chun等人，2019b）。Wang等人使用深度学习（DL）网络估计每个时频单元的理想比率掩码。通过结合目标声源方向信息和时频稀疏性，他们构建了一个多通道维纳滤波器来提取目标信号，在低信噪比条件下显著提高了输出信噪比和语音质量（Wang和Cavallaro，2021年）。Premachandra等人使用生成对抗网络（GAN）生成模拟的无人机噪声，然后应用频谱减法来减少含噪语音中的噪声，平均减少了5分贝（Premachandra和Kunisada，2024年）。Chen等人在预训练的频率循环卷积神经网络（FRCRN）模型的编码器模块中设计了一个频域瓶颈适配器。在训练过程中，他们冻结了预训练模型参数，仅微调适配器和注意力模块参数以学习无人机噪声特征，从而在数据有限的情况下实现了快速优化（Chen等人，2024b；Mukhutdinov等人，2023年；Chen等人，2025年）。

总体而言，大多数传统信号处理和DL方法仍然局限于优化孤立算法。这些方法的一个关键限制是它们在极低信噪比条件下的易失败性，模型性能会显著下降（Zhang等人，2025年）。为了解决无人机噪声控制不佳和在极低信噪比下算法失败的问题，本研究提出了一种结合长距离抛物面声音收集和DL的协同语音增强系统。该系统首先使用抛物面反射器聚焦声能并初步放大远距离信号。然后利用双通道D-Cross网络同时处理混合语音和噪声——增强和优化语音信号，同时精确分离和抑制噪声信号。同时，它使用二维多头交叉注意力深度挖掘噪声特征，从而减少残余噪声。结合AMSJ损失函数建立三维约束，该系统最终在无人机环境中实现了高质量的语音捕获。

章节片段

无人机数据采集系统

图1展示了基于无人机的音频采集的声学仿真示意图。无人机向下悬挂一个抛物面反射器用于音频采集。该设计利用了抛物面反射器的声学特性，并利用声波聚焦原理在接收阶段直接有效地增强语音信号（Geng等人，2022年）。

这种硬件配置对于基于无人机的语音采集至关重要，因为目标语音信号非常

数据集选择

现有的公共数据集缺乏在真实无人机声学环境下收集的语音数据，这些数据不足以支持关于无人机搭载的抛物面麦克风系统的研究。为了填补这一空白并确保实验结果能够代表实际部署条件，本研究构建了一个专为无人机语音增强定制的仿真数据集。具体来说，物理记录模块使用LeDi M435无人机在悬停模式下进行操作，以忠实模拟