摘 要: 极化合成孔径雷达可以工作在多个极化方式下,综合利用多种极化回波数据实现地物分类是极化数据处理的一个重要应用。目前将卷积神经网络应用于极化地物分类领域仍存在相应问题,包括多维极化分解特征信息给网络带来的信息冗余与维数灾难,逐像素切片预测导致分类效率低下。针对以上问题,本文提出了一种基于特征融合的全卷积网络模型。首先,设计两路编码层分支的全卷积网络结构,分别针对极化分解特征与极化散射特征提取深层特征,实现多维特征信息分离。然后采用注意力特征融合机制实现两路分支的特征融合,通过共享连接层学习通道注意力权值,重新分配网络的学习能力。此外引入改进的空洞空间金字塔模块,以提升模型的多尺度预测能力。实验结果表明:算法在两个不同地区的极化数据集的总体分类精度分别达到 96.43%与 99.60%,预测耗时分别为 17.3s 与 10.1s。在不显著增加预测耗时的同时提升了分类精度,验证了算法的有效性。
关键词: 极化合成孔径雷达;全卷积网络;注意力机制;编解码网络
陈嘉跃; 李飞 电子测量技术 2022-01-18
0 引 言
合成孔径雷达(Synthetic Aperture Radar, SAR) [1,2]作为主动式微波遥感系统,通过发射微波脉冲收集回波信息,可以不受多种天气,时间因素约束,实现对地观测。极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, PolSAR) [3]通过不同的极化通道来获得图像,能够提取出更为细致的地物信息,在灾害预防,地质勘测,植被防护,军事侦察等领域有着重要的应用。PolSAR 分类算法一般先根据目标地物类型的散射特性提取极化特征,再通过构造相应的分类器实现不同地物的分类。目前,分类算法一般分为两种:无监督与有监督算法。文献[4]提出的无监督分类算法,对散射分量进行分析,基于测地距离度量散射相似性,以确保每个散射分量的有效性。相比于无监督算法,有监督算法采用一定数量标签数据做训练,能够实现更好的分类结果。文献[5]基于 6 种散射模型分解方法,将支持向量机(Support Vector Machine, SVM)[6]与能量最小化应用于多维极化特征向量上,实现了极化分类。近年来,卷积神经网络(Convolutional Neural Network, CNN)作为代表的深度学习技术发展令人瞩目,许多国内外学者开始将其应用于 PolSAR 分类领域,与传统基于机器学习的算法相比,基于深度学习的算法具有自动学习隐藏的极化特征信息,泛化性能高等的优点。文献[7]提出利用相干矩阵的实数信息作为卷积神经网络的特征输入,有效的提升了分类精度。文献[8]构造了基于复数神经网络的极化图像分类算法,充分考虑了极化 SAR 通道之间的相位信息,减少特征映射过程中的信息损失。但是基于 CNN 的算法采用小切片样本训练,针对每个像素点逐点预测,存在卷积感受野小以及计算冗余问题。文献[9]提出全卷积网络(Fully Convolutional Network, FCN)将密集连接层替换为卷积层,可以实现与输入特征相同分辨率的类别预测,从而实现端到端的像素分类。虽然全卷积网络解决了计算冗余的问题,但是应用于极化分类领域仍需要做出相应的改进。众多极化特征数据能为深度学习算法带来充足的数据支撑,但是高维的极化特征带来信息的冗余问题,使得网络学习与训练难度增加,不利于达到提升分类效果的目的。
基于全卷积网络的分类优势以及结合极化 SAR 信息特征,本文提出了一种基于特征融合的全卷积极化 SAR 地物分类方法。通过构建两路编码分支的全卷积网络实现端到端的极化地物分类预测,将极化相干信息与极化分解信息分别进行深层特征提取,解决了高维输入特征的信息冗余问题。为了实现不同通道特征信息更有效的融合,引入了注意力融合机制对特征通道进行权重分布调整。最后为了提升模型对不同类别间地物的区分能力,加入了改进的多尺度特征提取模块,实现了整体算法在多种不同地物类别的极化数据集上的分类准确性与有效性。
1 研究方法 1.1 极化 SAR 特征提取
极化合成孔径雷达的极化信息可以使用 2×2 极化散射矩阵表示:
S (1) 其中, HH S 、 HV S 、 VH S 、 VV S 为四个独立极化通道的散射元素, H 、V 分别为水平极化和垂直线性极化。在单站互易条件下, HV VH S S ,极化散射矩阵在简化为 Pauli 基下的目标矢量 k ,表达式如式(2): 1 2 2 T k S S S S S HH VV HH VV HV (2) 进一步可以转换为 3×3 的极化相干矩阵 T ,其与目标矢量 k 的关系如式(3): 11 12 13 21 22 3 * 23 31 32 3 T T T T k T T T T T T k T (3) 其中*表示共轭操作符,上标 T 表示转置操作符, 〈∙〉表示取集平均运算。利用极化相干矩阵的对角线元素 T11 ,T22 ,T33 得到 Pauli 相干分解的三个散射分量,分别代表表面散射、偶次散射、体散射。另外基于 Freeman 非相干分解可以得到极化目标的表面散射功率 PS 、二次散射功率 PD 、体散射功率 PV 。基于 Pauli 相干分解与 Freeman 非 相 干 解 构 建 6 维 极 化 分 解 特 征 空 间 G1 t g t: 1,2,...,6其中 gt 为第 t 维特征,并在输入网络模型前对每一维特征进行归一化操作。对于复数域信息的极化相干矩阵,作为本文算法的另一编码层分支输入需要进行实数向量化。根据文献[10]提出的方法,通过如下公式(4)至(9)实现实数化特征压缩,得到 6 维的实数向量,同时实现特征的归一化处理。 10 A 10log ( ) SPAN (4) 22 B T SPAN / (5) 33 C T SPAN / (6) 12 11 22 D T T T / (7) 13 11 33 E T T T / (8) 23 22 33 F T T T / (9) 其中, A 为各个极化通道的总散射功率,单位为分贝, 11 22 33 SPAN T T T , B 和 C 分别为 T22 和 T33 相对于总功率的归一化比值, D ,E ,F 为相对相关系数。
除了 A ,其余五个参数,根据定义,数据被归一化到[0,1] 之间。其中总功率 A 也可以通过为任何特定的合成孔径雷达图像设置标称范围来归一化,从而构建极化相干信息特征空间 G2 t g t: 1,2,...,6,综合上述极化分解特征空间与极化相干信息特征空间得到模型的特征输入。
1.2 特征融合全卷积网络
传统的 CNN 网络经过卷积,池化操作后,通过全连接层输出固定向量,从而得到每个像素点的类别概率。而全卷积网络 FCN 用卷积层代替全连接层,以输出空间图而不是分类置信度,使用反卷积进行上采样,以获得密集的每个像素标记的输出。FCN 的组成部分主要包括编码层和解码层,在编码层过程中,采用卷积层进行特征提取,其实现过程如式(10): 1 j ( ) ( ) i l l l l l i i i i i j f f M x z x W b (10) 其中 l i z 表示第 l 层第 i 个神经元的激活函数的输入值, l 1 i x 表示上一层输出值, f 是 Relu 激活函数, l 1 ij W 为卷积参数, l i b 为偏置项, Mi 表示前一层神经元。池化层主要在编码过程中对特征图进行下采样,它可以对特征局部以及全局信息做整合。池化操作一般分为均值池化与最大池化,为了保持较好的纹理特征,本文网络采用滑动步长为 2×2 的最大池化操作。
解码层上采样是全卷积网络实现像素级预测的关键,采用双线性插值可以较为方便的实现特征解码,但是不能让网络学习到相应插值信息。反卷积操作[11]是一种特殊的卷积,其先使用 Padding 来扩大图像尺寸,将旋转卷积核 180 度,进行卷积计算,实现特征层上采样。本文拟采用反卷积特征融合方式,利用跳线连接将编码层中对应相同尺寸的特征层与反卷积的结果进行特征融合,使得分割结果细节恢复效果更好。
目前已经有研究人员将 FCN 全卷积网络应用于极化 SAR 地物分类研究中,文献[12]基于 H-A-α 分解输入的 FCN,实现了极化 SAR 的快速分类。文献[13]综合了多种极化特征,采用主成分分析(Principal Component Analysis, PCA)降维进行特征筛选,设计全卷积网络实现极化分类。采用单一极化分解特征难以实现更好的信息表征,综合多特征信息则需要考虑更好的实现特征信息的融合互补。受文献[14]启发,本文设计具有两路编码层分支的全卷积网络结构,分别处理极化相干信息与极化分解特征信息。融合网络架构的关键组成部分是特征融合方式,它用于结合两路编码层分支的极化深层信息。基础融合方式如图 1 所示,采用逐元素加和方式在不同深度特征层实现逐步融合。通过这种方式,不同编码器分支能独立学习特征,附加分支中的特征映射用于增加主分支中的特征映射,同时学习连接互补表示。
1.3 通道注意力融合
根据 1.2 小节所提到,两分支编码网络的特征融合方式对于网络能否学习到更加丰富的极化特征信息起到至关重要的作用。近年来注意力机制[15]开始受到研究人员的关注。人类在处理视觉任务时往往只聚焦于局部关键信息,应用注意力机制对不同特征层级,不同尺度特征进行加权,可以实现强调重要特征,形成新的特征权重分布的目的。针对两路编码层分支结构,引入通道注意力机制能帮助网络专注于学习更加重要的深层特征。本文在 1.2 节所提出的特征融合方式基础上应用通道注意力模块实现更有效的特征信息融合,其结构如图 2 所示。对于逐元素加和后的特征 Fin ,采用式(11)(12)实现通道注意力计算: M F F c in in (MLP AvgPool ( ( ))) MLP AvgMax F F in in F F F Max Avg in (11) F M F F out c in in (12) 其中代表 Sigmoid 激活函数,表示逐像素相乘。 AvgPool 表示全局平均池化, AvgMax 表示全局最大池化,通过不同的空间语义信息描述,经过参数共享的全连接层 MLP ,生成通道注意力特征 Mc C1 1 ,在全连接层中通道被压缩为 C r/ 1 1 ,以此来降低计算复杂度,在本文中 r 8 。对两路特征层进行加和并经过 Sigmoid 函数激活得到归一化权重向量与输入特征进行相加和,生成具有新的权重分布的特征层 Fout ,从而让网络学习到更有利于分类任务的特征。
1.4 多尺度特征提取
在地物分类任务上,不同待分类区域之间存在相应的空间语义信息关联。与传统卷积核相比,空洞卷积能够使得不增加网络计算量的同时卷积输出更大空间范围内的信息。其引入了空洞率这一超参数,它的定义是卷积核各个卷积参数值的间距。对于卷积核大小为 3× 3,空洞率为 3 的空洞卷积,其感受野扩大至 7×7。在文献 [16]中,研究人员提出空洞卷积池化金字塔(Atrous Spatial Pyramid Pooling, ASPP)结构,通过并行采用多个不同扩张率的空洞卷积层进行对多尺度特征提取,提高了模型的分类精度。对极化 SAR 分类场景,过大的扩张率容易引入斑点噪声的干扰,需要做出相应改进。因此本文在两路分支的编码层与解码层上采样之间加入多尺度特征提取模块,其结构如图 3 所示。对于输入的深层特征,使用基于 3×3 卷积核,扩张率分别为 3,6,9 的空洞卷积核分三层进行多尺度特征提取。根据文献[17],对于不同空洞卷积分支间采用级联串行组合,能够使得下层卷积在不增加空洞率的同时拥有更大的等效感受野。将原始特征与三路级联分支提取的不同感受野特征进行融合,使用 1×1 卷积核进行通道降维,输出最终 240 维特征向量。经过此模块组合多层感受野特征,可以进一步提高模型的特征表达能力。
1.5 整体算法流程
本文提出的网络整体结构如图 4 所示,分为两路分支编码层,分别处理极化分解信息与极化相干信息。两路编码层由 3 层卷积层构成,采用 3×3 卷积核提取特征,对输出数据进行批归一处理以加快模型收敛。对于卷积层参数采用 Dropout 进行随机失活,防止发生过拟合,并且采用 Relu 函数进行非线性激活。从图 4 中可以看到,两路分支卷积层输出特征信息采用 1.3 小节所提到的通道注意力融合机制进行特征融合,并使用步长为 2 的 2×2 的池化层完成下采样。在编码层网络的最后经过 1.4 小节提出的多尺度特征提取结构获得最终的输出,作为解码层的输入。解码层网络采用三层反卷积层,每一层特征图与编码层尺寸相对应,以便于进行相应的特征融合。最终经过 1×1 卷积层与 softmax 函数预测出切片区域所有像素点的地物类别概率。
输入:分解特征 D,极化相干向量 T,稀疏标签矩阵 G 训练: 1)对极化分解特征 D 进行步长为 32 的滑窗采样,得到 128×128 大小训练样本,送入第一通道编码层网络 2)同样将极化相干向量 T,进行滑窗采样形成训练数据,送入第二路编码层网络,进行特征提取后与第一通道编码层特征融合 3)两路编码层网络得到 240 维深度特征向量,送入多尺度特征提取模块 4)根据采样标签数据 G,利用反向传播算法多轮迭代训练,迭代完成后保存模型参数输出:像素级分类结果
训练过程通过计算预测标签和地面真实标注之间的交叉熵损失,采用反向传播算法用于连续更新参数,学习率设置为 0.001,权重衰减设为 1e-04,优化器采用 Adam[18]优化器,多轮迭代训练直到误差达到阈值。其中损失函数定义为式(13): ' 1 1 1 log N Numclass ij ij i j Loss y y N (13) 其中 y 和 ' y 别代表图像的背景真实度和预测结果, N 代表图像中训练样本的个数, Numclass 代表图像的类别数。
2 实验结果和分析
本节中将上述提出的算法应用于 PolSAR 数据集,分别使用 E-SAR 机载平台获得的德国奥博法地区 L 波段全极化数据以及基于星载平台 RadarSat2 的 C 波段旧金山地区全极化数据。每个数据采用五组对比实验:传统卷积网络 CNN、全卷积网络 FCN、基础融合的双分支编解码网络(M1)、通道注意力融合的编解码网络(M2)、本文最终的算法(M3),来证明本文所提研究方法的有效性。实验基于 Pytorch 深度学习框架,硬件配置环境为 NVIDIA GeForce GTX 1660-ti GPU(6 GB 内存)、Intel(R) Core(TM) i7-9700H CPU(16GB 内存)。
a) 评估指标
本文采用总体分类精度(OA)、Kappa 系数以及特定类别的分类精度最为算法评估指标。总体分类精度(Overall Accuracy,OA)表示了整体预测结果的精度:
OA M (14) Kappa 系数反映了预测与地面真值之间的一致性,计算公式如下 1 1 1 1 2 1 1 1 - C C C C ii ij ji i i j j C C C ij ji i j j N M M M Kappa N M M (15) 其中 N 为样本总数, Mij 代表类别 j 分为类别 i 的概率。
b) 实验结果分析
德国奥博法地区 Pauli 伪彩色图如图 5(a)所示,地面真值标注如图 5(b)所示,共分为四类地物。根据表 1 各项分类指标对比看出,训练样本相同的情况下,CNN 算法由于感受野受限,对于道路的预测效果不佳,同时在地物类别内部也存在错分的噪声,根据图 5(c)看出在道路城区农田的交汇处难以很好进行区分,其预测效率也最低。采用全卷积 FCN 算法虽然能显著的提升算法的预测效率,但仍存在地区类内与类间的区分度不足问题。采用了特征融合的全卷积网络 M1,M2 算法对于道路的预测精度有 5.7%至 6.2%的提升。在加入多尺度特征模块后的 M3 算法相比于 M2 算法在道路类别的预测精度又有 2.3%的提升,同时对城区也有近 1%的精度提升,表明了增大卷积感受野对提高类间区分度的帮助。算法 M3 在整体精度 OA 与 Kappa 系数也在多组对照数据中最高,分别为 96.43%与 94.67%,其余各项类别指标均占优。注意到采用了双分支特征融合结构的算法在预测耗时方面不如 FCN 算法,但考虑其预测精度的显著提升,预测耗时的略微增加在可接受范围内,对比传统 CNN 仍有预测效率上的优势。