轻量级自适应人工智能技术用于新型实时面部表情识别

生物通首页 > 今日动态 > 正文

轻量级自适应人工智能技术用于新型实时面部表情识别

时间：2026年2月21日

来源：Knowledge-Based Systems

编辑推荐：

面部表情识别实时化与高效化研究。提出AMFT模型融合多尺度特征提取、自适应注意力机制和Transformer架构，通过动态调节计算复杂度平衡精度与效率，在多个基准数据集上表现优于现有方法，支持实时应用。

Sabina Umirzakova | Jushkin Baltayev | Sevara Mardieva | Shakhnoza Muksimova

韩国清州忠北国立大学计算机科学系

摘要

为了实时且高精度地应对面部表情识别（FER）中的挑战性任务，研究人员提出了一种创新的解决方案：轻量级自适应多尺度融合变换器（AMFT）。这一新的FER框架将多尺度特征提取与自适应融合方法相结合，并采用了先进的变换器架构，从而在保持高效的同时显著提升了识别精度。此外，AMFT的设计旨在降低计算量，使其成为适用于安全、医疗和交互计算等领域的极具前景的实时应用。该模型的核心特点在于能够动态选择面部表情的复杂程度，从而在不影响性能的前提下调节处理不同场景所需的计算资源。通过在标准数据集上的测试发现，AMFT的表现远超现有模型，不仅处理速度更快，而且计算需求更低。这一突破性的技术结合了自适应的多尺度处理方法和变换器架构，实现了从实验室实验到实际应用的顺利过渡。我们的代码可在GitHub上获取：

https://github.com/SE-VGG16/Lightweight-Adaptive-AI-for-Novel-Real-Time-Facial-Expression-Recognition/tree/main

引言

作为一项基础技术，面部表情识别（FER）在智慧城市[2]、医疗保健[3]、教育[4]和人机交互[5]等领域得到了广泛应用。其重要性在于它为机器提供了通过视觉线索理解人类情感的最自然方式[40]。FER技术能够捕捉到面部表情的微小变化，使得系统能够在动态适应的情境中实现个性化与交互，适用于现代智能环境。然而，在无约束条件下实现鲁棒且实时的FER仍是一个尚未解决的问题[8]。早期的FER系统基于手工设计的特征描述符，如局部二值模式（LBP）[12]、Gabor滤波器[13]和方向梯度直方图（HOG）[14]。这些方法在实验室环境中表现良好，但在面对实际场景中的光照变化、姿态、遮挡或头部旋转时缺乏鲁棒性[15]。后来，深度学习技术的出现改变了这一局面，卷积神经网络（CNN）能够在无需人工干预的情况下直接从原始图像中进行层次化表示学习[16,17]。然而，基于CNN的方法仍受限于其有限的感受野范围，无法捕捉到细微或复杂的面部表情[18]。

表1

为克服这些局限性，近年来研究者开始使用聚焦系统和视觉变换器（ViTs）进行FER研究[19][20][21][22]。诸如CF-DAN[3]、PACVT[22]和DAN[21]等网络结构通过关注面部关键部位来提升系统的区分能力。但这些设计通常需要大量的计算资源，限制了其在实时应用或边缘设备中的使用。此外，现有大多数变换器模型不具备自适应调整注意力的能力，导致对简单表情的计算量过大且特征融合效率低下[9,11,25]。

总体而言，近期有许多研究（如POSTER++[25]、HALNet[26]、MMATrans[31]、FER-former[32]和MGET[33]）深入分析了CNN-CNN-Transformer混合模型。然而，能源效率、多尺度集成和动态注意力调节等问题依然存在[42]。与DAN、PACVT或POSTER++等固定注意力和统一计算方式的模型不同，AMFT引入了动态的复杂性感知控制机制，通过跟踪特征熵来选择性地开启或关闭注意力模块，从而在精度和速度之间取得平衡。此外，其渐进式的多尺度融合技术在变换器推理之前就整合了空间-通道信息，有助于在遮挡和姿态变化情况下更准确地识别表情，同时减少了25-30%的浮点运算次数（FLOPs）。这些改进使得AMFT不仅是一个混合模型，还是一个具备实时处理能力的自适应FER系统。因此，人们开始开发轻量级架构，既保证性能，又能平衡精度、可解释性和计算成本。本文介绍的AMFT结合了多尺度特征提取、空间-通道自适应注意力和基于变换器的全局推理，根据表情的复杂程度动态调整计算复杂度，从而在低能耗下实现高识别精度。这种自适应机制打破了以往研究的局限，为下一代实时、高效且可解释的面部表情识别技术奠定了基础。

方法论

所提出的AMFT架构旨在实现识别精度、可解释性和计算效率之间的平衡。其核心网络采用了改进版的ResNet-50，该网络具有强大的层次化表示能力且参数数量适中（2560万参数）。在此基础上，引入了双注意力机制。

实验设置

训练和评估AMFT时使用了包含多种表情、不同人群特征和环境条件的数据集。这些数据集对于测试深度学习模型在复杂条件下的面部表情识别能力至关重要，包括光照、姿态、遮挡和时间动态等因素（见表3）。

为了全面覆盖研究内容并扩大应用范围，这些数据集还结合了多种数据增强方法。

结果

通过对AMFT进行评估，检验了其在处理多种关键指标方面的能力。这一全面评估不仅证明了AMFT的优异性能，还证实了其在实际应用中的实用性。评估内容包括多个基准数据集上的准确性、精确度、召回率、F1分数、AUC和推理时间等指标。

讨论

AMFT为FER领域开辟了一条新的、更加鲁棒和复杂的研究路径，运用了前沿技术解决了该领域长期存在的问题。讨论内容涵盖了AMFT的设计特点、与现有模型的性能对比，以及其新颖特性对实际应用和未来研究的影响。AMFT整合了多种神经网络和深度学习技术，包括CNN和自适应机制。

结论

AMFT的诞生是FER领域的重要进展。该创新系统融合了CNN、自适应注意力机制和LSTM网络等先进技术，能够在各种环境中保持高识别精度，具备实际应用价值。在FER-2013、RAF-DB和CK+等数据集上，AMFT的表现均优于竞争对手。

未引用的参考文献

[1,6,10,34,[35], [36], [37], [38], [39]

CRediT作者贡献声明

Sabina Umirzakova：撰写——审稿与编辑、初稿撰写、软件开发、方法论设计、形式化分析。 Jushkin Baltayev：验证、资源获取、调查、数据整理、概念构思。 Sevara Mardieva：方法论设计、资金筹措、形式化分析、数据整理、概念构思。 Shakhnoza Muksimova：撰写——审稿与编辑、验证、项目监督、资源管理、方法论设计、资金筹措。

利益冲突声明

作者声明不存在可能影响本文研究的财务利益冲突或个人关系。