今日动态
  • 生物通首页
  • 今日动态
  • 新技术专栏
  • 人才市场

生物通首页 > 今日动态 > 正文

KANWhisper:利用可学习的激活函数实现可解释且高效的阿拉伯语自动语音识别

时间:2026年6月3日
来源:Scientific Reports

编辑推荐:

摘要阿拉伯语的自动语音识别(ASR)由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型(如OpenAI的Whisper)通过迁移学习取得了良好的基线性能,但其前馈子层普遍使用具有固定激活函数的多层感知器(MLPs),这限制了模型

广告
   X   

摘要

阿拉伯语的自动语音识别(ASR)由于形态学复杂性、方言多样性以及有限的标注资源而面临持续性的挑战。尽管基于Transformer的模型(如OpenAI的Whisper)通过迁移学习取得了良好的基线性能,但其前馈子层普遍使用具有固定激活函数的多层感知器(MLPs),这限制了模型的表达能力和可解释性。本文介绍了KANWhisper,这是首次将Kolmogorov-Arnold Networks(KANs)应用于自动语音识别。通过用具有可学习B样条激活函数的KAN层替换Whisper编码器和解码器中的MLP前馈层,KANWhisper不仅提高了识别准确性,还增强了模型的可解释性。在Common Voice Arabic数据集上的广泛实验表明,KANWhisper的词错误率(WER)为8.02%,字符错误率(CER)为2.78%,优于标准Whisper微调模型(WER为8.61%)、LoRA适配的Whisper(WER为8.10%)、wav2vec2 XLSR-53(WER为11.50%)和SeamlessM4T v2-Large(WER为13.20%),同时参数数量减少了16倍(228M vs. 244M)。对学习到的激活函数的分析显示出了层次化的特性:较低的编码器层保留了类似GELU的激活函数,用于通用声学处理;而较高层则发展出了新的变换机制,能够捕捉阿拉伯语特有的音系现象,包括重音辅音的区分。在音素级别的评估中,阿拉伯语中易混淆的重音辅音对的错误率降低了33.3%

First slide
引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>
First slide
揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>
First slide
对同一细胞中的转录组和表观基因组进行同时分析(使用细胞核分离试剂盒简化样本制备工作流程)>>
First slide
「大小鼠繁育与健康管理」指导海报,点击即可免费领取电子版或实体海报>>
Previous Next
热点排行
  • 1基因祖先来源揭示真核发生过程中多样化的微生物关联
  • 2靶向人抗原R(HuR)的分子胶降解剂(Molecular Glue Degrader, MGD)降解HuR抑制BRAF突变型结直肠癌(Colorectal Cancer, CRC)
  • 3水中碳纳米管的光致量子摩擦(Light-induced quantum friction of carbon nanotubes in water)
  • 4弥漫性中线胶质瘤的预后性人脑网络
  • 5电子-空穴双层结构中的双组分激子凝聚态
  • 6通过一种高产率的化学和生物氧化还原过程,将木质素转化为己二酸
  • 7SIRT7 调节剂量补偿机制,并保护女性的 X 染色体
  • 8Diamantina Zone(迪亚曼蒂纳带)内一处距今530万年(5.3 Ma)的深海鲸类大墓地(whale necropolis)
  • 9全基因组倍增塑造了脊椎动物脑细胞类型的演化
  • 10丘脑-脑干吸引子网络驱动基于历史偏见的决策
生物通微信公众号
生物通新浪微博
在线客服
微信
新浪微博
我要投稿

返回顶部


生物通 版权所有

订阅Biohot解锁原文链接索取