摘 要:高精度提取合成孔径雷达(SAR)图像中的河流边界,对河流水势监测具有重要意义。以检测郑州 7·20 暴雨后黄河的健康状况为实施例,本文融合精致 Lee 滤波思想与卷积操作的滤波特性,提出了基于河道几何特性的优化内部权值卷积核 Refined-Lee Kernel,进而提出了一种新型河道提取深度神经网络模型,即 River-Net。为验证所提模型的有效性,本文获取了郑州 7·20 暴雨前后两景欧空局 Sentinel-1 卫星 20m 分辨率干涉宽幅(IW)影像数据,利用暴雨前的影像对模型进行训练,用于提取暴雨后的黄河河道,分析黄河在暴雨后的涨势情况。实验结果表明,相比主流语义分割模型,所提模型能够更精确地在 SAR 图像中提取河道,对洪水灾害的检测与评估有重要应用价值。
关键词: 合成孔径雷达(SAR);Refined-Lee Kernel;精致 Lee 滤波;神经网络;河道提取
李宁; 郭志顺; 毋琳; 赵建辉 雷达学报2021-12-05
1. 引言
大型河流稳定行河对人民安居乐业有着举足轻重的作用。近年来,国内水患频发,准确、及时地检测河流健康状况对洪涝预警、灾后评估有重要意义。随着遥感技术的迅猛发展,卫星遥感技术已成为研究人员对自然环境的日常检测和对灾害的及时感知的重要手段[1,2]。相比实地勘察,遥感手段在节省大量人力物力的同时,还避免了实地调研过程中的各种风险。因此,基于卫星遥感技术开发相应的河流检测方法具有重要的应用价值。
与光学影像不同,合成孔径雷达(Synthetic Aperture Radar, SAR)能够提供全天时全天候的观测数据[3,4]。其主动发射的微波可穿透云与雾,已在道路提取[5]、舰船检测[6]等大放异彩。同时 SAR 发出的微波对于水和陆地散射特性有所差异,可以为湖泊水域分割、海岸线提取等任务提供较好的数据资源[7,8]。基于 SAR 的这一特点,许多优秀的对现代河流和湖泊的研究工作颇有成效[9,10]。传统水域分割方法有阈值分割法、主动轮廓模型法、聚类分割法等。自适应阈值分割算法[11,12]通过图像不同区域的灰度值分布来自动生成阈值,该类方法运算效率高,但易受 SAR 图像中相干斑噪声的影响;主动轮廓模型法 [13,14]一般先对水域进行粗分割,再根据梯度信息对粗分割结果多次迭代,最终得到更加精确的分割结果,但该类算法运算量较大且易受粗分割精度的影响;聚类算法 [15]根据数据的分布按照某种距离(欧氏距离、曼哈顿距离等)来评估当前像素与类别中心之间的相似程度,如 K-means, Wishart 分类器,该类方法可实现较为高效的无监督分类,但仍易受相干斑噪声的影响。
以上传统算法的本质是人工设计一种映射或判据,并以此判定图像中像素点的类别。对于存在大量相干斑噪声的 SAR 图 像来说,这些映射很难适应整幅 SAR 图像中所有的像素。而神经网络技术通过不停迭代模型中的共享权值,最终构建出能够适应所有像素的映射模型。近年来,深度神经网络技术在遥感领域大放异彩[16,17]。越来越多的学者开始对相关模型进行一定的改进,使其更适合 SAR 遥感影像的分类、目标检测、语义分割等任务。2012 年,文献[18]提出脉冲耦合神经网络(PCNN),并探讨了该模型在 C 波段和 X 波段 SAR 图像中提取海岸线的能力。2015 年,文献 [19]提出了全卷积神经网络(FCN)模型,随着该模型的出现,神经网络技术开始具备实现像素级端到端语义分割任务的能力,如文献[20]曾利用 FCN 模型在印度沿海地区 SAR 影像中成功分割出了当地河流。然而,尽管 FCN 中有多层上采样操作,但是其对于浅层网络所提取的图像特征信息没有充足的利用。2015 年,随着 U 型神经网络(U-Net)的提出[21],浅层网络的特征信息通过跳跃连接传递到深层网络与对应的特征信息融合起来,如文献[22] 以迁移学习的方式将U-Net应用于SAR图像水域分割;文献[23]利用 U-Net 和 Deeplab 对印度沿海地区部分河流进行识别,但存在边界信息缺失现象。2019 年,文献[24] 结合可分离式卷积和扩张卷积搭建网络模型进行 SAR 图像水域分割,使得网络能够参考更多的语义信息,从而达到更好的分割表现。
然而,上述方法更多关注模型设计,而忽略了河流本身几何特性与网络模型之间的联系。本文针对河道的精确提取问题,提 出 一 种 改 进 的 卷 积 核 Refined-Lee Kernel(RLK)。进而提出一种更加精确地提取河道的语义分割模型 River-Net,用于提取 SAR 图像中的河道。最后以黄河为实施例,基于黄河语义分割结果来判断黄河在 7·20 暴雨后的行河情况。本文的主要贡献总结如下:
(1)提出了一种新型卷积核 RLK,可以根据目标几何特点来强化自身特征提取能力。 (2)设计了一种新型的水域分割网络 River-Net,可以对 SAR 图像中的河流执行更加精细的语义分割任务。 (3)利用所提网络模型,以检测黄河河道为实施例,分析了黄河在 7·20 暴雨后的行河情况。
2. 相关方法与模型
2.1 Deeplab
DeepLab 模型[25]以空洞卷积(Dilated convolution)的形式增加卷积层感受野,从而获得更多的上下文语义信息。在深度卷积神经网络模型中,下采样过程往往伴随着分辨率的丢失,而空洞卷积可实现不增加参数量的前提下提高感受野。如图 1 所示,在正常卷积中引入“扩张率”作为超参数,该参数定义了卷积核处理数据时权值之间的间距。该方法能有效提高模型的感受野,使得模型能学习更多的上下文信息。然而,Kernel 的不连续可能导致输入图像的一些像素点不参与计算,模型输出结果中类别边界“锯齿”效应严重。因此在 Deeplab 模型末端通常引入条件随机场(CRF),通过二元势函数描述像素点与像素点之间的关系,鼓励“距离”相近的像素分配相同的标签,而相差较大的像素分配不同标签,而这个“距离” 的定义与像素值和实际相对距离有关。 CRF 能够使空洞卷积在分割边界导致的锯齿效应得到较大的改善。
2.2 PSPNet
在神经网络执行语义分割任务中,一些特殊场景很容易使得网络模型产生错误的判断,如汽车在岸边可能被网络判定为船,电脑显示器与电视机显示器容易存在类别混淆。此时需要引入更多的上下文语义信息来解决问题。当判定层能够考虑更多的全局语义信息时,出现误判的可能性就会低很多。与 Deeplab 网络模型采用空洞卷积增加感受野的方式不同,PSPNet [26] 通过金字塔池化(Spatial Pyramid Pooling, SPP)模块来增加感受野,从而使得网络模型能兼顾更多的上下文信息。如图 2 所示,SPP 模块融合了几种不同尺度下的特征。SPP 模块中不同层级输出不同尺度的特征图,为了保持全局特征的权重,在每个金字塔层级后使用 1×1 的卷积核,当某个层级维数为 n 时,即可将语境特征的维数降到原始特征的 1/n。然后,通过双线性插值直接对低维特征图进行上采样,使其与原始特征图尺度相同。最后,将不同层级的特征图拼接为最终的金字塔池化全局特征。
3. 自适应卷积核
以上神经网络模型中卷积核被认为是感知图像特征的“眼睛”,其机制类似于人眼的感受野。从数学的角度看,卷积核本质上是一种参数可训练的滤波算子。和其他滤波方式类似,它的运算方式具有很关键的特点——线性且具有平移不变性。同时它还有一般滤波器所不具备的特点,即权值共享特性。现有的研究[24]更多地关注卷积核的感受野,以求获取更多有效的上下文信息,然而却忽略了卷积核的线性平移不变性。另一方面,由于河流在 SAR 图像中多为连续的细长曲线,对于河流相关的语义分割任务来说,河流边界信息是首要的。而且 SAR 图像中相干斑噪声随处可见,精致 Lee 滤波也常常被用来过滤该噪声、保留 SAR 图像中目标的边界信息。于是,借用精致 Lee 滤波的思想,本文提出了 RLK 模块,基于卷积核的滤波器特性来更有效地提取图像特征,保留目标更多的边界信息。
3.1 RLK 模块原理
精致 Lee 滤波通过定义 8 种非正方形局部窗口,将均匀区域像素值等于其平均值,将非均匀区域近似于局部窗口中心像素值。基于精致 Lee 滤波的思想改进卷积核,增强其边界特征提取能力。定义 8 种非正方形局部窗口,如图 3 所示,通过定义中心像素的邻域来提高边界估计的准确性。滤波后的卷积核权值可以写成如下公式: