水下声学目标识别(Underwater Acoustic Target Recognition, UATR)是智能声呐与水下环境监测系统的核心组成部分,但在复杂场景的水下环境中,受环境噪声、信号衰减及动态传播效应影响,实现稳定且高精度的识别仍是重大挑战。尽管深度学习的发展提升了声学信号分类的特征自动提取能力,现有模型多在识别精度与计算效率之间进行权衡。为此,研究人员提出深度可分离卷积自适应Transformer(Depthwise Separable Convolutional Adaptive Transformer, DCAT)——一种新型深度学习架构,其并行结合深度可分离卷积(Depthwise Separable Convolutions)以高效提取局部特征,同时集成基于Transformer的全局时序依赖建模注意力模块。DCAT的核心创新在于自适应融合机制,可依据条件将具有不同感受野的两个Transformer分支的上下文信息进行融合,从而使模型能够同时捕捉小尺度局部特征与长程声学结构。该框架采用鲁棒的预处理与特征工程策略,从采样率为22.05 kHz的音频中提取过零率(Zero Crossing Rate, ZCR)、均方根能量(Root Mean Square Energy, RMSE)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)及色度(Chroma)特征,并结合音高偏移、时间拉伸与高斯噪声添加等数据增强技术,以提升对真实世界声学变化的泛化能力。在两个基准数据集DeepShip与ShipsEar上的评估结果表明,DCAT分别取得了98.84%与99.16%的优异分类准确率,同时保持极低的计算复杂度——仅0.52百万参数与6.1百万浮点运算次数(FLOPs),支持单样本推理延迟低于0.7毫秒的实时处理。对比研究显示,DCAT在准确率与效率上均优于Transformer、一维残差网络(ResNet1D)及改进残差网络(AResNet)等当前先进网络,验证了其在判别能力与资源经济性之间的优越平衡。所提模型为水下声学目标识别设立了性能-效率的新标杆,可为下一代自主声呐、水下监视及海洋生态监测系统提供极具前景的框架支撑。
该研究针对水下声学目标识别在复杂环境中受噪声干扰、信号衰减及传统模型难以兼顾精度与效率的瓶颈,以公开基准数据集DeepShip与ShipsEar为实验对象,提出了一种融合卷积效率与Transformer全局建模能力的轻量级混合架构DCAT。研究通过多尺度特征提取、双分支Transformer并行处理及自适应特征融合,实现了对船舶辐射噪声的高精度、低延迟分类,最终在两项数据集上分别取得98.84%与99.16%的分类准确率,参数量仅为0.52 M,浮点运算量为6.1 M FLOPs,推理延迟低于0.7 ms,为嵌入式水下监测设备的部署提供了可行方案。论文发表于《Scientific Reports》,其核心贡献在于构建了兼顾高性能与低资源消耗的水下声学识别新范式,对智能海洋感知系统的工程化落地具有重要推进作用。
研究人员在开展研究时主要采用以下关键技术方法:首先,对原始水下声学信号进行统一重采样至22.05 kHz,截取固定5秒帧并进行零填充或截断处理;其次,应用音高偏移(±2半音)、时间拉伸(缩放因子0.8–1.2)及1/f粉红噪声添加(信噪比10–20 dB)三类数据增强策略扩充训练集多样性;第三,提取每帧信号的时域特征(ZCR、RMSE)与频域特征(MFCC、Chroma),通过跨帧统计均值与标准差构建55维固定长度特征向量;第四,设计由4层深度可分离卷积、双分支Transformer(分别配置4头与8头多头注意力)及自适应融合模块构成的DCAT网络,采用Adam优化器与分类交叉熵损失进行训练。
研究结果部分的核心结论如下:
训练与验证趋势分析显示,DCAT在DeepShip数据集上训练损失于第5轮降至最低,验证损失于第16轮趋于稳定,测试准确率在第25轮达到98.84%,训练与测试曲线拟合良好,无显著过拟合现象。
混淆矩阵结果表明,DCAT对油轮与拖船类别的分类准确率达100%,对货船与客船的识别率分别为96.2%与97.9%,仅存在少量跨类别混淆,整体分类性能优异。
受试者工作特征(ROC)曲线显示,所有类别及微平均、宏平均曲线的曲线下面积(AUC)均为1.00,证明模型在不同类别间具有完美的判别能力。
t-SNE可视化结果显示,油轮与拖船的特征簇紧凑且分离清晰,货船与客船簇存在轻微重叠但不影响整体分类精度,验证了模型所学特征的高区分度。
精确率-召回曲线表明,除客船类别平均精确率(AP)为0.99外,其余类别AP均为1.00,微平均AP达1.00,模型在高、低决策阈值下均能保持精度与召回的平衡。
特征提取方法对比实验证实,单独使用ZCR、RMSE、MFCC、Chroma的准确率分别为91.74%、91.82%、92.49%、92.46%,而四者联合提取时准确率提升至98.84%,证明多特征互补可显著增强判别能力。
数据增强消融实验显示,无增强时模型准确率为91.65%,加入三类增强后提升至98.84%,验证了增强策略对泛化能力的提升作用。
与现有模型对比中,DCAT以最低参数量与计算量超越了Transformer、AResNet、ResNet1D等基准模型,且在ShipsEar数据集上同样以99.16%的准确率与0.6分钟推理时间实现最优性能。
消融研究进一步证实,深度可分离卷积块、双分支Transformer与自适应融合机制的协同作用是实现最优性能的关键,移除任一组件均会导致精度显著下降。
讨论与结论部分指出,DCAT通过深度融合局部卷积特征提取与全局时序依赖建模,成功解决了水下声学目标识别中精度与效率难以兼顾的矛盾。研究人员认为,该模型的轻量化特性使其可直接部署于边缘计算设备,服务于自主声呐、海洋监视及生态监测等场景。同时,研究也指出当前方法的局限:依赖预设特征提取流程,在极端动态噪声环境下的自适应能力不足,且嵌入式硬件的实际推理性能仍受限于设备算力。未来工作将聚焦于引入自监督与半监督学习以降低对标注数据的依赖,优化架构以适应边缘端实时计算需求,并探索端到端学习管道与无监督特征表示,进一步提升模型在非平稳声学环境中的鲁棒性。该研究为水下声学信号处理领域提供了新的性能-效率平衡点,具有重要的工程应用价值与学术参考意义。