语音是人类之间主要的交流方式,因此也是与计算机交互的首选方式。然而,患有言语障碍的人在与他人交流时面临挑战。与计算机交互时,有效的沟通更加困难,因为现有技术无法满足这类人群的需求。构音障碍是一种由于中枢或周围神经系统损伤导致发音器官肌肉控制能力受损的言语障碍(Duffy, 2013)。构音障碍患者的语音通常含糊不清(由于音素替换、插入或删除),因此难以理解。借助沟通辅助工具可以改善这类人群的交流效果,这类工具通常包括自动语音识别(ASR)系统和文本转语音(TTS)系统,前者将语音信号转换为文本,后者将文本转换为可理解的语音。然而,主要挑战在于开发能够准确解码构音障碍语音的ASR系统。这一挑战同样适用于与计算机的交互,因为计算机也需要通过ASR系统获取语音输入。
现有ASR系统无法处理构音障碍语音,De Russis和Corno(2019)的分析证明了这一点。他们比较了IBM Watson Speech-to-Text、Google Cloud Speech和Microsoft Azure Bing Speech等现代ASR云平台在Torgo构音障碍语音语料库上的性能,发现Google Cloud Speech的表现最好,WER为59.81%,其次是Microsoft Azure Bing Speech(62.94%),IBM为67.35%。即使是轻度构音障碍患者,WER也至少为15%,而正常人的WER约为5%。因此,需要开发专门的构音障碍ASR(DASR)系统。这类系统通常需要大量训练数据,但从构音障碍患者那里录制如此大量的数据很困难。尽管存在一些开源的构音障碍语音数据集(Rudzicz等人,2000年;Kim等人,2008年;Wan等人,2024年),但由于数据规模有限和变异性大,它们难以直接用于训练模型。解决数据稀缺问题的一种方法是采用数据增强技术。构音障碍语音的数据增强方法包括:(i)对现有语音样本进行微调,如相位移动(Mariya Celin等人,2020年)、速度扰动(Vachhani等人,2018年)、音高调整(Salamon和Bello,2017年)、时间拉伸(Geng等人,2020年)和添加噪声(Nawroly等人,2023年)以生成新的增强版本;(ii)转换健康人的语音记录,以再现构音障碍患者的声学特征(Xiong等人,2020年);(iii)利用TTS技术合成构音障碍语音,模拟患者的发音模式(Soleymanpour等人,2024年;Bhattacharya等人,2020年;Jiao等人,2021年;Leung等人,2024年;Hermann和Magimai Doss,2023年;Li等人,2025年;Soleymanpour等人,2022年)。
在早期的数据增强技术中,对构音障碍语音进行了简单的修改,如添加噪声、速度扰动、音高调整和时间拉伸(Mariya Celin等人,2020年;Vachhani等人,2018年;Geng等人,2020年;Bhat和Strik,2025年)。Geng等人(2020年)分析了声道长度、速度和节奏扰动的效果,发现速度扰动最适合数据增强(Wang等人,2024年;Hu等人,2024年)。T.A. Celin等人(2020年)还采用了虚拟麦克风阵列合成技术来增加数据量,并进行了多分辨率特征提取以进一步增加训练数据。还有尝试在特定信噪比(SNR)和频率范围内向构音障碍语音数据中添加噪声,以避免影响其特性(Nawroly等人,2023年),从而生成更多数据。
Xiong等人(2020年)尝试将健康人的语音转换为构音障碍语音,认为结合多个构音障碍患者和健康人的数据可以获得所需的数据量。但某些数据可能有益,而某些则可能有害,因此他们从多个说话者中筛选出与目标患者更接近的数据用于增强。另一种增强方法是人工合成构音障碍语音,通过修改健康语音的特征来实现。Vachhani等人(2018年)通过修改健康语音的音素时长来模拟构音障碍语音。然而,在这些方法中,修改并未针对特定构音障碍患者的特征,因此增强数据中并未捕捉到音素替换、插入或删除等发音错误。最近,开发了新的构音障碍语音TTS合成系统,以更准确地捕捉患者的发音特征(Soleymanpour等人,2024年)。
TTS技术的最新进展进一步提升了DASR中数据增强的潜力。Vachhani等人(2018年)研究了使用健康语音数据增强构音障碍语音识别系统的效果,发现加入健康语音有助于提升轻度构音障碍的识别性能,而合成构音障碍语音数据则能进一步提高系统整体性能。Bhattacharya等人(2020年)提出了一种使用合成数据训练特定类型构音障碍ASR系统的方法,强调了专用数据在应对该障碍挑战中的必要性。Soleymanpour等人(2024年)的研究表明,合成语音与真实构音障碍语音结合使用可显著提升识别准确性。这些TTS技术的进步为解决DASR系统的数据稀缺问题提供了可行方案,同时保留了构音障碍患者的特征。
文献综述表明,基于TTS的构音障碍语音数据增强是一种有前景的方法。尽管在准确合成涵盖所有语音障碍特征的构音障碍语音方面仍存在挑战,但将TTS系统的合成数据整合到DASR模型训练中已显著提升了性能,降低了WER并增强了系统对构音障碍语音变化的鲁棒性。现有方法主要集中在开发英语DASR系统,而本研究则专注于开发泰米尔语DASR系统。通过使用TTS系统合成额外构音障碍语音数据,解决了训练数据不足的问题。虽然现有研究通常使用FastSpeech2架构,但未探讨合成语音质量对DASR系统性能的影响。本研究探讨了三种TTS模型(基于隐马尔可夫模型的TTS、FastSpeech2和Tacotron2),以确定合成语音应具备的特性,从而显著提升DASR系统性能。此外,还分析了增强数据量对DASR性能的影响。
本文的其余部分安排如下:第2节描述了研究中使用的语音语料库;第3节详细介绍了开发的TTS系统;第4节分析了各TTS系统合成的语音质量;第5节介绍了开发的DASR系统及其性能;第6节总结了分析结果和结论。