KANWhisper：利用可学习的激活函数实现可解释且高效的阿拉伯语自动语音识别

时间：2026年6月3日

来源：Scientific Reports

编辑推荐：

摘要阿拉伯语的自动语音识别（ASR）由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型（如OpenAI的Whisper）通过迁移学习取得了良好的基线性能，但其前馈子层普遍使用具有固定激活函数的多层感知器（MLPs），这限制了模型

摘要

阿拉伯语的自动语音识别（ASR）由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型（如OpenAI的Whisper）通过迁移学习取得了良好的基线性能，但其前馈子层普遍使用具有固定激活函数的多层感知器（MLPs），这限制了模型的表达能力和可解释性。本文介绍了KANWhisper，这是首次将Kolmogorov-Arnold Networks（KANs）应用于自动语音识别。通过用具有可学习B样条激活函数的KAN层替换Whisper编码器和解码器中的MLP前馈层，KANWhisper不仅提高了识别准确性，还增强了模型的可解释性。在Common Voice Arabic数据集上的广泛实验表明，KANWhisper的词错误率（WER）为8.02%，字符错误率（CER）为2.78%，优于标准Whisper微调模型（WER为8.61%）、LoRA适配的Whisper（WER为8.10%）、wav2vec2 XLSR-53（WER为11.50%）和SeamlessM4T v2-Large（WER为13.20%），同时参数数量减少了16倍（228M vs. 244M）。对学习到的激活函数的分析显示出了层次化的特性：较低的编码器层保留了类似GELU的激活函数，用于通用声学处理；而较高层则发展出了新的变换机制，能够捕捉阿拉伯语特有的音系现象，包括重音辅音的区分。在音素级别的评估中，阿拉伯语中易混淆的重音辅音对的错误率降低了33.3%

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部