利用循环神经网络集成技术,在生物医学数据中实现基于构音障碍的神经系统疾病检测的自动化评估

时间:2026年1月26日
来源:Biomedical Signal Processing and Control

编辑推荐:

自动检测失语症的系统采用集成递归神经网络,结合SWT去噪和多种语音特征提取,通过LSTM、GRU、BiRNN模型融合及黑寡妇优化算法调参,在Dysarthria数据集上达到96.75%准确率。

广告
   X   

作者列表:Ala Saleh Alluhaidan、Amani K. Samha、Mohammed Maray、Abdulbasit A. Darem、Mukhtar Ghaleb、Shaymaa Sorour、Hamad Almansour
所属机构:沙特阿拉伯利雅得Princess Nourah bint Abdulrahman大学计算机与信息科学学院信息系统系,邮政信箱84428,邮编11671

摘要

  1. 自动识别构音障碍语音的方法为临床诊断和管理构音障碍提供了可靠且经济可行的计算机辅助工具。目前,深度学习(DL)方法在分类不同严重程度的构音障碍语音方面受到了广泛关注。识别构音障碍及其严重程度在许多实际应用中具有重要意义,例如评估患者的治疗进展,以及开发针对病理性嗓音问题的语音辅助系统。现有的语音处理工具通常侧重于短时语音片段,这限制了它们在处理语音障碍方面的有效性,即使使用了卷积神经网络(CNN)也是如此。基于此背景,本文提出了一种基于循环神经网络集成(AADNDD-ERNN)的构音障碍自动评估方法。AADNDD-ERNN的主要目标是利用生物医学数据自动识别构音障碍。为实现这一目标,该方法首先采用静态小波变换(SWT)进行噪声去除作为预处理步骤;特征提取阶段则从音频内容中生成包括梅尔频谱图(Mel spectrograms)、MFCC以及多种频谱和非频谱特征在内的有用信息。在构音障碍检测过程中,集成循环神经网络(RNN)模型结合了三种分类器:长短期记忆网络(LSTM)、门控循环单元(GRU)和双向RNN(BiRNN)。最后,使用黑寡妇优化算法(BWOA)对模型超参数进行最优调整。实验结果表明,AADNDD-ERNN在构音障碍数据集上的准确率达到了96.75%,优于其他方法。

引言

大脑是人体中最复杂且最重要的器官,其核心功能是调节中枢神经系统[2]。大脑的重要功能包括情绪反应、创造性思维、协调能力、认知过程、运动控制以及记忆功能[3]。大脑是整个身体的控制中心,任何异常的大脑功能都可能导致全身功能障碍。精神分裂症(SZ)、阿尔茨海默病(AD)和帕金森病(PD)是最常见的三种神经系统疾病(NLD),这些疾病表现为大脑正常功能的紊乱[4]。患有这些疾病的患者对家庭和医疗系统来说都是巨大的挑战。及早识别这些疾病至关重要,以便减缓甚至阻止病情的发展。为此,研究人员正在开发多种神经影像学技术,如正电子发射断层扫描(PET)、扩散张量成像(DTI)、MRI和CT分析方法,以实现对疾病的早期检测并制定有效的治疗策略[5]。阿尔茨海默病是导致痴呆的主要原因,主要表现为脑损伤和记忆丧失[6]。在疾病初期就开始治疗对于减缓病情进展至关重要。作为一种非接触式的分析方法,结构性MRI(sMRI)可作为评估神经退行性病变阶段的常用生物标志物[7]。早期识别阿尔茨海默病有助于及时采取干预措施,包括预防性治疗和护理计划[8]。通过诊断轻度认知障碍(MCI)可以实现对阿尔茨海默病的早期发现,从而为新药研发和疾病防治策略的制定提供依据[9]。随着新技术的发展及其在各个领域的应用,我们有望提高医院对多种疾病的诊断能力[10]。利用计算机辅助方法可以提高医疗诊断的准确性和效率。许多研究者利用传统机器学习(ML)技术结合神经影像数据来识别阿尔茨海默病[11]。深度学习(DL)技术已在模式识别、计算机视觉、图像处理、自动驾驶和医学成像等领域取得显著进展。卷积神经网络(CNN)以3D或2D图像作为输入,能够提取更高层次的局部和全局特征,从而大幅减少传统手工特征提取方法带来的误差[11]。非侵入性的基于图像的计算机辅助诊断(CAD)技术与深度学习的最新进展相结合,显著提升了疾病分析的效率。
本文提出了一种基于循环神经网络集成(AADNDD-ERNN)的构音障碍自动评估方法。该方法的主要目标是利用生物医学数据自动识别构音障碍。预处理阶段采用静态小波变换(SWT)去除噪声;特征提取阶段生成包括梅尔频谱图、MFCC以及多种频谱和非频谱特征在内的信息丰富的特征。在构音障碍检测过程中,集成循环神经网络(RNN)模型包含三种分类器:长短期记忆网络(LSTM)、门控循环单元(GRU)和双向RNN(BiRNN)。最后,使用黑寡妇优化算法(BWOA)对模型超参数进行优化。实验结果表明,AADNDD-ERNN在构音障碍数据集上的准确率高达96.75%,优于其他方法。

文献综述

Montalbo[12]提出了一种名为DySARNet的方法。DySARNet结合了LSDB算法,改善了特征重处理效果,并减少了参数数量,相较于SDWConv算法更为高效。为了提升框架的感知能力和理解度,DySARNet采用了SELRA机制,这种自注意力机制在减少参数数量的同时提升了处理效果[13]。此外,还可以通过四层小波变换(DWT)对语音信号进行分解[13]。

材料与方法

本文介绍了AADNDD-ERNN方法,旨在利用生物医学数据自动识别构音障碍。该方法包括预处理、特征提取、循环神经网络分类器和参数优化器。图1展示了AADNDD-ERNN的整体流程。

实验结果与分析

在本节中,我们在构音障碍数据集上对AADNDD-ERNN方法进行了实验验证[27]。数据集包含2000个样本,均匀分为两类:1000个构音障碍样本和1000个非构音障碍样本,确保了两类样本的均衡代表性,有利于模型的无偏训练和评估。这些数据适用于开发语音分类算法。

结论

本文介绍了AADNDD-ERNN方法,其主要目标是利用生物医学数据自动识别构音障碍。该方法包括预处理、特征提取、循环神经网络分类器和参数优化器。预处理阶段使用SWT去除噪声;特征提取阶段生成了包括梅尔频谱图、MFCC等多种特征的信息。集成循环神经网络模型结合了LSTM、GRU和BiRNN三种分类器,有效捕捉了语音的时间依赖性和互补特征,提高了检测的准确性和鲁棒性。此外,BWOA算法用于超参数的精细调整,提升了模型的泛化能力和诊断准确性。

作者贡献声明

作者名单及职责: - Ala Saleh Alluhaidan: 资料撰写、方法论设计、研究实施、概念构建 - Amani K. Samha: 形式分析、数据整理 - Mohammed Maray: 形式分析、数据整理 - Abdulbasit A. Darem: 项目管理、方法论设计、研究实施 - Mukhtar Ghaleb: 软件开发、资源协调、项目管理 - Shaymaa Sorour: 数据验证、监督工作、软件协助 - Hamad Almansour: 数据可视化、验证工作、监督指导、软件支持

伦理声明

本文未涉及任何需要人类受试者的研究。

利益冲突声明

作者声明不存在可能影响本文研究的财务利益冲突或个人关系。

致谢

作者感谢King Khalid大学研究和研究生院的支持,该大学通过大型研究项目(项目编号RGP2/554/46)以及King Saud大学(ORF-2026-550)的持续研究资助计划,为本研究提供了资金支持。同时,Princess Nourah bint Abdulrahman大学也提供了项目支持(项目编号PNURSP2026R234)。

生物通微信公众号
微信
新浪微博


生物通 版权所有