分层分析与弱监督语音模型的高效微调

时间:2026年3月31日
来源:Expert Systems with Applications

编辑推荐:

弱监督语音模型多语言特征表示分析与自适应优化研究,提出基于投影加权典型相关分析(PWCCA)和多元多粒度典型相关分析(MMCCA)的方法,揭示Whisper编码器四语言(英、葡、土、维)跨粒度(帧、音素、词)的语义整合机制,对比自监督Wav2vec 2.0模型发现Whisper高层语义表征更优,通过半偏相关微调(SCFT)策略使ASR任务WER降低46.07%。

广告
   X   

Jian Peng|Lixu Sun|Yongchao Li|Yineng Cai|Nurmemet Yolwas|Wushour Silamu
新疆大学计算机科学与技术学院,乌鲁木齐,830046,中国

摘要

长期以来,可解释性研究的匮乏限制了人们对语音模型表示方式和性能提升的理解。尽管现有研究在分析自监督语音模型的可解释性方面取得了一定进展,但在弱监督语音模型的可解释性研究方面仍存在显著差距。为了解决这一问题,我们提出了一个基于投影加权典范相关性分析(PWCCA)的可解释性分析框架,并开发了一种多语言多粒度典范相关性分析(MMCCA)方法。该方法系统地研究了四种语言(英语、葡萄牙语、土耳其语、维吾尔语)在Whisper编码器中的表示演变模式,从而能够精确定位和优化关键模型层。实验结果表明,与自监督的Wav2vec 2.0模型相比,Whisper在高层表示中展现了显著增强的词级语义整合能力。基于这一发现提出的“半部分相关性微调”(SCFT)策略在自动语音识别(ASR)任务中通过关键层调整将词错误率(WER)相对降低了多达46.07%,为语音模型的高效调整提供了一种新范式。

引言

近年来,由于深度神经网络(DNN)强大的表示学习能力,它们在多个领域取得了突破性进展。诸如Transformer架构(Vaswani等人,2017年)之类的新型架构范式通过其分层特征抽象机制,在自然语言处理任务(如BERT(Devlin、Chang、Lee和Toutanova,2019年)、DistilBERT(Sanh、Debut、Chaumond和Wolf,2019年)以及计算机视觉(如Vision Transformer(Dosovitskiy等人,2020年)中表现出色。然而,这些模型复杂的内部结构使得它们的决策过程本质上是“黑箱”式的,极大地阻碍了模型可解释性研究的发展。尽管DNN最初是受生物神经系统的启发而设计的,但研究界对其内部表示动态的理解仍然非常有限。这一限制使得可解释性研究成为人工智能领域的基本挑战之一。
早期的可解释性研究主要集中在计算机视觉领域,典型方法采用可视化技术来揭示卷积神经网络(CNN)的内部表示机制(LeCun、Bengio和Hinton,2015年)。例如,Zhang和Zhu(2018年)提出的上卷积网络技术成功地将CNN特征图逆向重构为可解释的视觉模式,展示了特征图与图像语义之间的关联。相比之下,语音领域的可解释性研究进展较为缓慢。这种差异源于人类感知系统的生理基础:视觉皮层通过具有局部感受野特征的空间编码处理二维光学信号,这与CNN的卷积核机制自然对齐(Hubel、Wiesel,1962年;LeCun、Bottou、Bengio、Haffner,2002年)。相反,听觉系统采用时频编码策略(Daudet和Torrésani,2002年),其中耳蜗基底膜的周期性振动通过空间频率映射(Shamma,2001年)和相位锁定机制(Laroche和Dolson,1999年)将声波转换为时空耦合的神经信号,这对传统的时频分析方法提出了根本性挑战。
随着自监督学习(SSL)技术的兴起,语音模型的可解释性研究取得了重大突破。最近分析SSL预训练模型表示特征的研究(如HuBERT(Hsu等人,2021年)、Wav2vec 2.0(Baevski、Zhou、Mohamed和Auli,2020年)揭示了发音特征(Pasad、Chou和Livescu,2021年)、声学特征(Pasad、Shi和Livescu,2023年)以及词汇信息(Pasad、Chien、Settle和Livescu,2024年)在网络层中的动态演变模式。这些研究不仅推进了自动语音识别(ASR)等任务的性能边界,更重要的是,建立了一个将内部模型表示与语音物理属性联系起来的可解释性分析框架。这为理解时间信号的高级特征编码机制提供了新的研究范式。
然而,对于弱监督学习(WSL)语音模型的编码特征的理解仍存在显著差距。受Pasad等人(2021年)在SSL领域开创性工作的启发,本研究采用了轻量级且可扩展的投影加权典范相关性分析(PWCCA)(Morcos、Raghu和Bengio,2018年)来系统地研究WSL语音模型中的表示演变机制。具体来说,我们专注于广泛用于语音识别和翻译任务的Whisper模型(Radford等人,2023年),分析其编码器中的层间表示演变模式及其与语言属性和语言变化的关联。与Pasad等人(2021年)的研究不同,我们的研究不仅考察了WSL预训练模型中的已知语言,还进行了跨WSL预训练框架的比较分析。此外,基于在Whisper中观察到的不同语言的表示动态,我们提出了一种ASR“半部分相关性微调”(SCFT)策略。据我们所知,这是首次使用PWCCA方法系统探索WSL语音模型“黑箱”表示空间中的多粒度语言特征编码机制及其动态演变。代码可在https://github.com/futian00/Hierarchical-Analysis.git获取。
我们的主要贡献如下:
  • 1. 我们提出了一个多语言多粒度典范相关性分析(MMCCA)框架,用于系统地比较不同语言(英语、葡萄牙语、土耳其语、维吾尔语)和粒度级别(帧级、音素级、词级)在各种预训练Whisper模型中的内部特征表示变化。
  • 2. 通过在相同条件下的比较分析,我们揭示了弱监督语音模型(Whisper)和自监督语音模型(Wav2vec 2.0)之间的不同编码特征和特征演变模式。
  • 3. 我们将分析见解应用于下游ASR微调任务,所提出的SCFT策略在实践中优于传统的微调方法,为模型训练和调整方法提供了新的视角。

部分摘录

弱监督语音学习

在语音模型训练中,由于手动注释的高成本,获取强监督数据受到限制,这推动了弱监督学习范式的开发。弱监督学习利用不完整、不精确或不准确的标签信息进行模型训练,已成为解决数据稀缺问题的关键技术途径(Zhou,2018年)。在ASR领域,传统的强监督模型构建方法

分析方法和模型

在本节中,我们详细描述了所采用的分析方法以及模型与分析方法的整合。

训练数据

本研究调查了Whisper预训练模型的多语言编码机制,重点关注四种语言:英语(en)、葡萄牙语(portu)、土耳其语(tr)和维吾尔语(ug)。具体来说,英语数据来自LibriSpeech语料库(Panayotov、Chen、Povey和Khudanpur,2015年),葡萄牙语数据来自MLS数据集(Pratap、Xu、Sriram、Synnaeve和Collobert,2020年),而土耳其语和维吾尔语数据则基于Common Voice语料库构建(Ardila等人,2019年)。根据数据量

研究结果

我们首先展示了MMCCA的实验结果,分析了Whisper模型中四种语言的表示变化,并将这些发现与下游ASR微调性能相关联。除非另有说明,实验分析结果适用于tiny、small、large-v1和large-v2预训练模型,以及英语数据集的dev-other和test-clean子集。由于我们的目标是研究Whisper的编码特性

结论

本研究采用PWCCA揭示了Whisper预训练模型的分层编码特性和跨语言泛化能力。通过MMCCA实验,我们发现:(1)模型规模与声学表示准确性之间存在显著的正相关关系,大规模模型在资源匮乏的语言建模中表现出更强的表示能力;(2)存在“对齐崩溃”现象

资金声明

本工作得到了中国国家重点研发计划(项目编号2023B01005)的支持,该项目名为“多模态互联网内容安全生态系统中的智能感知、分析和决策关键技术的研究与应用”。

CRediT作者贡献声明

Jian Peng:概念化、方法论、数据整理、撰写——原始草稿。Lixu Sun:软件开发、形式分析。Yongchao Li:形式分析、调查。Yineng Cai:数据整理。Nurmemet Yolwas:监督、资金获取、形式分析。Wushour Silamu:资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有