基于CNN与Swin Transformer混合模型的细粒度食物图像识别方法研究及其在健康管理中的应用

时间:2025年10月2日
来源:Journal of Food Composition and Analysis

编辑推荐:

本文提出了一种创新的CNN-Transformer混合架构,通过全局注意力与局部协方差卷积特征融合(GA-LCCFF)模块深度融合卷积神经网络(CNN)和Swin Transformer,显著提升细粒度食物图像识别精度。在FoodX-251和UEC Food-256数据集上分别达到81.47%和83.44%的准确率,为膳食监测与慢性病(如肥胖、糖尿病)防控提供关键技术支撑。

广告
   X   

亮点
  • 我们提出了一种新颖的CNN-Transformer混合架构,通过新设计的全局注意力与局部协方差卷积特征融合(GA-LCCFF)模块,将卷积神经网络(CNN)与Swin Transformer深度融合。这项集成显著增强了模型识别细粒度食物图像的能力。
  • GA-LCCFF模块通过使模型能够捕捉传统分类器经常忽略的细微类内差异和局部判别特征,有效应对了区分视觉相似食物类别的挑战。
  • 我们在两个广泛使用的细粒度食物图像数据集——FoodX-251和UEC Food-256上进行了全面实验。所提出的模型表现出色,在相同实验设置下分别达到了81.47%和83.44%的准确率,超越了大多数现有基线方法。
  • 我们的方法引入了一种新颖机制,将深度卷积层和基于协方差的局部特征提取融入Swin Transformer的注意力计算中。这一设计使模型能够有效融合全局上下文表示与细粒度局部特征,从而在类内变异大的场景中提高识别准确率。
结论与未来工作
本文提出了一种基于CNN与Swin Transformer深度融合的细粒度食物图像识别方法。我们将深度卷积神经网络、多层感知器和特征融合模块集成到统一的GA-LCCFF模块中,并将其嵌入Swin Transformer。这一设计实现了深度与广度的有效结合,显著增强了模型挖掘和提取特征信息的能力。理论分析和实验结果表明,该方法在细粒度食物图像识别任务中具有优越性能,为智能健康管理(如膳食监测和慢性病防控)提供了可靠的技术方案。未来工作将探索更高效的特征融合机制,并拓展模型在实时移动健康应用中的部署可行性。

生物通微信公众号
微信
新浪微博


生物通 版权所有