可变形卷积与Transformer混合网络在高光谱图像分类中的应用

时间：2026年1月30日

来源：Digital Signal Processing

编辑推荐：

高光谱图像分类中提出可变形卷积与Transformer融合网络DTHNet，通过PCA降维和三重联合卷积块捕获光谱空间特征，双分支并行结构同步提取局部与全局特征，并创新性引入参数-free SimAM注意力机制优化可变形卷积，最终实现分类精度显著提升。

陈翔|张淑珍|宋海龙|严琦

吉首大学通信与电子工程学院，中国湖南省吉首市人民南路416000

摘要

近年来，基于卷积神经网络的可变形卷积在高光谱图像（HSI）分类中得到了广泛应用，这得益于其灵活的几何适应性和卓越的局部特征提取能力。然而，在建立像素序列之间的长距离依赖关系和捕获全局上下文信息方面，它们仍面临重大挑战。为了解决这些问题，提出了一种新型的可变形卷积与Transformer混合网络（DTHNet）用于HSI分类。具体来说，首先使用PCA降低原始HSI的维度，然后利用组深度联合卷积块（GDJCB）捕获降维HSI块的光谱-空间特征，以避免忽略某些光谱带。其次，采用由可变形卷积和Transformer组成的并行架构，共同提取HSI的局部-全局光谱-空间特征和长距离依赖关系。在可变形卷积分支中，设计了一种简单的无参数注意力（SimAM）增强型光谱-空间卷积块（SSCB），有效防止卷积过程中关键信息的丢失和冗余特征的生成。在Transformer分支中，卷积操作与自注意力机制的深度集成进一步促进了HSI特征的更有效提取。最后，通过融合两个分支的特征来获得更准确的HSI分类结果。在三个广泛使用的高光谱图像数据集上的实验结果表明，所提出的DTHNet优于几种现有的HSI分类网络。

引言

高光谱图像（HSI）是一种具有高光谱分辨率和强描述地面物体特征能力的光谱图像。由于其丰富的光谱信息和空间纹理细节，HSI已广泛应用于各种遥感领域[1]，如土地利用监测[2]、城市规划[3]、地质勘探[4]和作物分类[5]。在这些应用中，HSI分类是一个关键任务[6]，[7]，其目的是根据每个像素的光谱-空间特征为其分配预定义的类别。

在过去十年中，提出了许多HSI分类方法。在早期阶段，主要采用了传统的机器学习方法。例如，支持向量机（SVM）方法用于光谱-空间分类[8]；随机森林（RF）方法捕获不同波段的光谱信息以突出类别相关性[9]；k最近邻（KNN）方法也被广泛应用[10]。随着遥感技术的发展，对这些经典方法的多种变体进行了改进，以提高其稳定性和判别能力[11]。然而，这些方法严重依赖于手工制作的特征。当应用于具有复杂地面物体分布的HSI时，它们面临相当大的挑战。

近年来，具有强大特征提取能力和非线性拟合能力的深度学习方法逐渐成为主流。例如，循环神经网络（RNNs）[12]有效地学习了相邻光谱带之间的关系。堆叠自编码器（SAEs）[13]通过多层堆叠实现了深度特征提取。图卷积网络（GCNs）[14]高效处理了非欧几里得数据。其中，卷积神经网络（CNNs）[15]、[16]、[17]因其出色的光谱-空间特征提取能力而得到最广泛的应用。例如，为了同时利用光谱和空间特征，杨等人[18]结合了1D-CNN和2D-CNN提出了一个联合网络。赵等人[19]提出了一个基于光谱-空间特征的分类（SSFC）框架，将降维技术与2D-CNN相结合。此外，为了在提取更深层次的光谱-空间特征的同时降低深度网络的复杂性，Roy等人[20]提出了一个混合光谱CNN网络（HybridSN），该网络结合了2D-CNN和3D-CNN。同样，Bhatti等人[21]提出了一个局部相似性投影Gabor滤波网络，将CNN的局部线性投影与Gabor滤波器相结合。随后，出现了几种注意力网络来解决CNN中特征权重分布不均匀的问题。例如，胡等人[22]提出了一个多尺度多角度注意力网络（MMAN），李等人[23]提出了一个双分支双注意力机制网络（DBDA）。

然而，随着CNN的发展，局部感受野的限制变得越来越明显。为了解决从不同规模和形状的物体中提取信息时边界特征过于平滑的问题，戴等人[24]提出了一种CNN的变体，即可变形卷积，它通过学习偏移场来改变卷积核的采样位置。后来，朱等人[25]首次将可变形卷积应用于高光谱特征提取，取得了有希望的结果。为了提高特征提取的准确性，赵等人[26]应用了超像素分割并设计了一个超像素引导的可变形卷积网络（SGDCN），实现了有希望的分类性能。方等人[27]使用可变形卷积和注意力来平衡变压器中复杂高维数据的局部细节和长距离依赖关系。上述方法在多个数据集上取得了优异的分类性能。然而，它们仍然面临以下限制：1）捕获全局信息的能力有限；2）难以建立像素序列之间的长距离依赖关系；3）标准卷积层提供的和计算出的偏移量不准确。

最近，视觉Transformer（ViT）在计算机视觉领域展示了出色的性能。由于其强大的学习能力和建模全局信息的能力，它已被广泛应用于高光谱图像分类[28]、[29]。例如，为了从相邻光谱带中学习局部序列信息，洪等人[30]提出了一个基于Transformer的网络，称为SpectralFormer。为了从HSI中提取高级语义特征，孙等人[31]引入了一个光谱-空间特征分词Transformer（SSFTT）网络。此外，与CNN架构不同，Transformer主要依赖于自注意力机制，并结合了多层感知器。因此，它在捕获像素之间的长距离依赖关系方面提供了显著的优势。例如，为了解决CNN无法捕获长距离依赖关系的问题，何等人[32]提出了一种结合Transformer和CNN架构的方法。为了克服处理长距离特征时卷积的局限性，赵等人[33]引入了一个基于多视觉架构的混合网络（MVAHN）。然而，在处理具有复杂地面物体分布的HSI时，Transformer忽略了相关的局部信息。

因此，为了克服可变形卷积的局限性和Transformer的缺点，本文提出了一种可变形卷积与Transformer混合网络（DTHNet）用于HSI分类。具体来说，首先使用主成分分析（PCA）降低HSI的维度，然后在降维后的HSI上应用组深度联合卷积块（GDJCB）来提取光谱-空间结构特征。设计的GDJCB可以在提取特征的同时避免忽略某些光谱带。接下来，将最初获得的特征输入到一个结合了可变形卷积和Transformer优势的双分支并行架构中。该结构分别通过修改后的可变形卷积分支和Transformer编码器分支提取局部和全局的光谱-空间特征以及长距离依赖关系。然后，通过逐元素求和融合两个分支的特征以增强特征表示能力。在双分支架构中，将卷积操作集成到自注意力机制中，以提高局部-全局特征提取的有效性。同时，为了防止特征提取阶段关键信息的丢失和生成过多的冗余特征，提出了一种基于CNN的架构——光谱-空间卷积块（SSCB），其中包含一个简单的无参数注意力模块（SimAM），为后续处理提供更可靠的特征表示，从而提高偏移量的准确性和可变形卷积的局部特征提取能力。最后，为了防止过拟合，在dropout操作之后通过全连接层进行最终分类。

1.
为了有效提取光谱-空间特征，我们设计了一个GDJCB。该模块结合了深度卷积和组卷积，以便从所有光谱带中捕获光谱-空间结构信息。
2.
所提出的DTHNet整合了卷积、可变形卷积和Transformer机制，有效利用了这三种方法的优势。这种设计有助于局部-全局特征提取以及HSI中像素之间长距离依赖关系的建模，从而提高了网络在各种类别上的判别能力。
3.
为了减轻Transformer在处理复杂地面物体时忽略相关局部信息的倾向，并提高其特征提取性能，我们将卷积操作集成到自注意力机制中。这种方法改进了Transformer中的多头注意力机制。
4.
将SSCB模块引入可变形卷积中，以减少在特征提取过程中生成过多冗余特征和丢失关键信息的情况，该模块在CNN架构中采用了SimAM。

章节片段

可变形卷积神经网络

在传统的卷积操作中，卷积核被限制为固定结构（例如3×3矩形）。这种固定的几何结构阻止了感受野适应性地匹配地面物体的实际形状和空间尺度。当采样点位于不同地面物体之间的边界附近时，卷积核的固定结构会覆盖多个地面物体，导致特征提取不准确，从而影响模型的性能

提出的方法

在本节中，我们详细介绍了所提出的DTHNet的实现。如图3所示，DTHNet采用双分支网络架构。首先对HSI进行PCA以降低其维度，然后将得到的数据分成多个大小相同的3D块。接下来，GDJCB模块（结合了组卷积和深度卷积）从HSI块中提取光谱-空间结构特征。这些3D特征随后被展平并投影到

实验结果与分析

在本节中，为了评估所提出的DTHNet的分类性能，我们在三个广泛使用的高光谱图像数据集上进行了比较实验。首先，我们详细介绍了实验中使用的数据集，包括Indian Pines（IP）、Pavia University（PU）和Salinas（SA）。其次，我们描述了实验设置和评估指标，并分析了相关参数和关键模块对方法性能的影响。最后，我们进行了

结论

在本文中，我们提出了一种结合可变形卷积和Transformer的新混合网络用于HSI分类。在这种方法中，我们首先使用GDJCB模块（由深度卷积和组卷积构建）从降维后的HSI数据中捕获所有有效光谱带的光谱-空间结构信息。这种设计避免了使用传统方法时忽略某些光谱带的问题。其次，采用双分支并行架构，结合了