近年来,由于深度神经网络(DNN)强大的表示学习能力,它们在多个领域取得了突破性进展。诸如Transformer架构(Vaswani等人,2017年)之类的新型架构范式通过其分层特征抽象机制,在自然语言处理任务(如BERT(Devlin、Chang、Lee和Toutanova,2019年)、DistilBERT(Sanh、Debut、Chaumond和Wolf,2019年)以及计算机视觉(如Vision Transformer(Dosovitskiy等人,2020年)中表现出色。然而,这些模型复杂的内部结构使得它们的决策过程本质上是“黑箱”式的,极大地阻碍了模型可解释性研究的发展。尽管DNN最初是受生物神经系统的启发而设计的,但研究界对其内部表示动态的理解仍然非常有限。这一限制使得可解释性研究成为人工智能领域的基本挑战之一。
早期的可解释性研究主要集中在计算机视觉领域,典型方法采用可视化技术来揭示卷积神经网络(CNN)的内部表示机制(LeCun、Bengio和Hinton,2015年)。例如,Zhang和Zhu(2018年)提出的上卷积网络技术成功地将CNN特征图逆向重构为可解释的视觉模式,展示了特征图与图像语义之间的关联。相比之下,语音领域的可解释性研究进展较为缓慢。这种差异源于人类感知系统的生理基础:视觉皮层通过具有局部感受野特征的空间编码处理二维光学信号,这与CNN的卷积核机制自然对齐(Hubel、Wiesel,1962年;LeCun、Bottou、Bengio、Haffner,2002年)。相反,听觉系统采用时频编码策略(Daudet和Torrésani,2002年),其中耳蜗基底膜的周期性振动通过空间频率映射(Shamma,2001年)和相位锁定机制(Laroche和Dolson,1999年)将声波转换为时空耦合的神经信号,这对传统的时频分析方法提出了根本性挑战。
随着自监督学习(SSL)技术的兴起,语音模型的可解释性研究取得了重大突破。最近分析SSL预训练模型表示特征的研究(如HuBERT(Hsu等人,2021年)、Wav2vec 2.0(Baevski、Zhou、Mohamed和Auli,2020年)揭示了发音特征(Pasad、Chou和Livescu,2021年)、声学特征(Pasad、Shi和Livescu,2023年)以及词汇信息(Pasad、Chien、Settle和Livescu,2024年)在网络层中的动态演变模式。这些研究不仅推进了自动语音识别(ASR)等任务的性能边界,更重要的是,建立了一个将内部模型表示与语音物理属性联系起来的可解释性分析框架。这为理解时间信号的高级特征编码机制提供了新的研究范式。
然而,对于弱监督学习(WSL)语音模型的编码特征的理解仍存在显著差距。受Pasad等人(2021年)在SSL领域开创性工作的启发,本研究采用了轻量级且可扩展的投影加权典范相关性分析(PWCCA)(Morcos、Raghu和Bengio,2018年)来系统地研究WSL语音模型中的表示演变机制。具体来说,我们专注于广泛用于语音识别和翻译任务的Whisper模型(Radford等人,2023年),分析其编码器中的层间表示演变模式及其与语言属性和语言变化的关联。与Pasad等人(2021年)的研究不同,我们的研究不仅考察了WSL预训练模型中的已知语言,还进行了跨WSL预训练框架的比较分析。此外,基于在Whisper中观察到的不同语言的表示动态,我们提出了一种ASR“半部分相关性微调”(SCFT)策略。据我们所知,这是首次使用PWCCA方法系统探索WSL语音模型“黑箱”表示空间中的多粒度语言特征编码机制及其动态演变。代码可在
https://github.com/futian00/Hierarchical-Analysis.git获取。
我们的主要贡献如下:
- 1. 我们提出了一个多语言多粒度典范相关性分析(MMCCA)框架,用于系统地比较不同语言(英语、葡萄牙语、土耳其语、维吾尔语)和粒度级别(帧级、音素级、词级)在各种预训练Whisper模型中的内部特征表示变化。
- 2. 通过在相同条件下的比较分析,我们揭示了弱监督语音模型(Whisper)和自监督语音模型(Wav2vec 2.0)之间的不同编码特征和特征演变模式。
- 3. 我们将分析见解应用于下游ASR微调任务,所提出的SCFT策略在实践中优于传统的微调方法,为模型训练和调整方法提供了新的视角。