高光谱图像(HSI)是一种具有高光谱分辨率和强描述地面物体特征能力的光谱图像。由于其丰富的光谱信息和空间纹理细节,HSI已广泛应用于各种遥感领域[1],如土地利用监测[2]、城市规划[3]、地质勘探[4]和作物分类[5]。在这些应用中,HSI分类是一个关键任务[6],[7],其目的是根据每个像素的光谱-空间特征为其分配预定义的类别。
在过去十年中,提出了许多HSI分类方法。在早期阶段,主要采用了传统的机器学习方法。例如,支持向量机(SVM)方法用于光谱-空间分类[8];随机森林(RF)方法捕获不同波段的光谱信息以突出类别相关性[9];k最近邻(KNN)方法也被广泛应用[10]。随着遥感技术的发展,对这些经典方法的多种变体进行了改进,以提高其稳定性和判别能力[11]。然而,这些方法严重依赖于手工制作的特征。当应用于具有复杂地面物体分布的HSI时,它们面临相当大的挑战。
近年来,具有强大特征提取能力和非线性拟合能力的深度学习方法逐渐成为主流。例如,循环神经网络(RNNs)[12]有效地学习了相邻光谱带之间的关系。堆叠自编码器(SAEs)[13]通过多层堆叠实现了深度特征提取。图卷积网络(GCNs)[14]高效处理了非欧几里得数据。其中,卷积神经网络(CNNs)[15]、[16]、[17]因其出色的光谱-空间特征提取能力而得到最广泛的应用。例如,为了同时利用光谱和空间特征,杨等人[18]结合了1D-CNN和2D-CNN提出了一个联合网络。赵等人[19]提出了一个基于光谱-空间特征的分类(SSFC)框架,将降维技术与2D-CNN相结合。此外,为了在提取更深层次的光谱-空间特征的同时降低深度网络的复杂性,Roy等人[20]提出了一个混合光谱CNN网络(HybridSN),该网络结合了2D-CNN和3D-CNN。同样,Bhatti等人[21]提出了一个局部相似性投影Gabor滤波网络,将CNN的局部线性投影与Gabor滤波器相结合。随后,出现了几种注意力网络来解决CNN中特征权重分布不均匀的问题。例如,胡等人[22]提出了一个多尺度多角度注意力网络(MMAN),李等人[23]提出了一个双分支双注意力机制网络(DBDA)。
然而,随着CNN的发展,局部感受野的限制变得越来越明显。为了解决从不同规模和形状的物体中提取信息时边界特征过于平滑的问题,戴等人[24]提出了一种CNN的变体,即可变形卷积,它通过学习偏移场来改变卷积核的采样位置。后来,朱等人[25]首次将可变形卷积应用于高光谱特征提取,取得了有希望的结果。为了提高特征提取的准确性,赵等人[26]应用了超像素分割并设计了一个超像素引导的可变形卷积网络(SGDCN),实现了有希望的分类性能。方等人[27]使用可变形卷积和注意力来平衡变压器中复杂高维数据的局部细节和长距离依赖关系。上述方法在多个数据集上取得了优异的分类性能。然而,它们仍然面临以下限制:1)捕获全局信息的能力有限;2)难以建立像素序列之间的长距离依赖关系;3)标准卷积层提供的和计算出的偏移量不准确。
最近,视觉Transformer(ViT)在计算机视觉领域展示了出色的性能。由于其强大的学习能力和建模全局信息的能力,它已被广泛应用于高光谱图像分类[28]、[29]。例如,为了从相邻光谱带中学习局部序列信息,洪等人[30]提出了一个基于Transformer的网络,称为SpectralFormer。为了从HSI中提取高级语义特征,孙等人[31]引入了一个光谱-空间特征分词Transformer(SSFTT)网络。此外,与CNN架构不同,Transformer主要依赖于自注意力机制,并结合了多层感知器。因此,它在捕获像素之间的长距离依赖关系方面提供了显著的优势。例如,为了解决CNN无法捕获长距离依赖关系的问题,何等人[32]提出了一种结合Transformer和CNN架构的方法。为了克服处理长距离特征时卷积的局限性,赵等人[33]引入了一个基于多视觉架构的混合网络(MVAHN)。然而,在处理具有复杂地面物体分布的HSI时,Transformer忽略了相关的局部信息。
因此,为了克服可变形卷积的局限性和Transformer的缺点,本文提出了一种可变形卷积与Transformer混合网络(DTHNet)用于HSI分类。具体来说,首先使用主成分分析(PCA)降低HSI的维度,然后在降维后的HSI上应用组深度联合卷积块(GDJCB)来提取光谱-空间结构特征。设计的GDJCB可以在提取特征的同时避免忽略某些光谱带。接下来,将最初获得的特征输入到一个结合了可变形卷积和Transformer优势的双分支并行架构中。该结构分别通过修改后的可变形卷积分支和Transformer编码器分支提取局部和全局的光谱-空间特征以及长距离依赖关系。然后,通过逐元素求和融合两个分支的特征以增强特征表示能力。在双分支架构中,将卷积操作集成到自注意力机制中,以提高局部-全局特征提取的有效性。同时,为了防止特征提取阶段关键信息的丢失和生成过多的冗余特征,提出了一种基于CNN的架构——光谱-空间卷积块(SSCB),其中包含一个简单的无参数注意力模块(SimAM),为后续处理提供更可靠的特征表示,从而提高偏移量的准确性和可变形卷积的局部特征提取能力。最后,为了防止过拟合,在dropout操作之后通过全连接层进行最终分类。
- 1.
为了有效提取光谱-空间特征,我们设计了一个GDJCB。该模块结合了深度卷积和组卷积,以便从所有光谱带中捕获光谱-空间结构信息。
- 2.
所提出的DTHNet整合了卷积、可变形卷积和Transformer机制,有效利用了这三种方法的优势。这种设计有助于局部-全局特征提取以及HSI中像素之间长距离依赖关系的建模,从而提高了网络在各种类别上的判别能力。
- 3.
为了减轻Transformer在处理复杂地面物体时忽略相关局部信息的倾向,并提高其特征提取性能,我们将卷积操作集成到自注意力机制中。这种方法改进了Transformer中的多头注意力机制。
- 4.
将SSCB模块引入可变形卷积中,以减少在特征提取过程中生成过多冗余特征和丢失关键信息的情况,该模块在CNN架构中采用了SimAM。