基于深度学习的印度手语(SGCIISLang)静态手势分类与解释模型,采用优化的门控循环单元(GRU)

时间:2026年1月29日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

静态手势识别与优化GRU模型在印度手语中的应用,通过MediaPipe特征提取和自建数据集实验,验证GRU在遮挡、光照变化及背景干扰下的分类优势,精度达97.96%。

广告
   X   

要查看此由人工智能生成的摘要,您必须具有高级访问权限。
了解更多 登录

摘要

摘要

手语对全球言语障碍者的交流起到了重要作用。虽然需要专业的手语翻译员来辅助交流,但这类翻译员的数量有限,且在需要时可能无法随时提供帮助。深度学习技术可以通过创建虚拟翻译员来应对这一挑战。然而,在识别系统中仍需解决一些问题,例如遮挡、外部光线变化和背景去除等。印度手语(ISL)中的手势动作通常涉及单手或双手的移动来表达含义。本文提出了一种名为“印度手语静态手势分类与识别”(SGCIISLang)的模型,该模型采用了优化的门控循环单元(GRU)架构。在实验中,我们构建了自己的数据集,名为“印度手语静态手势(ISL)与英文字母、印地语元音和数字的对应关系”,该数据集已发布在Mendeley Data上(https://data.mendeley.com/datasets/7tsw22y96w/1)。我们使用MediaPipe库进行特征提取,并将提取的结果整合到模型中以对手势动作进行分类。我们采用了三种MediaPipe方法来提取感兴趣的区域:整体方法、不考虑姿势的整体方法以及不考虑人脸的整体方法。我们分析了四种模型:长短期记忆-卷积神经网络(LSTM-CNN)、卷积神经网络(CNN)、循环神经网络(RNN)以及基于GRU的SGCIISLang模型。实验结果表明,基于GRU的SGCIISLang模型在效率、处理速度和收敛速度方面均优于CNN、LSTM-CNN和RNN模型。该模型的预测准确率为97.96%,损失值、召回率、均方误差(MSE)和F1分数分别为0.0837、0.9742、2.791和0.977。我们的方法有效解决了相关挑战。我们提出的方法的样本原型可在GitHub上找到(https://github.com/AnimeshSingh777/Sample-Prototype-for-Indian-Sign-Language-Static-Gesture-Recognition-System)。

人工智能摘要

要查看此由人工智能生成的文字摘要,您必须具有高级访问权限。

生物通微信公众号
微信
新浪微博


生物通 版权所有