摘 要:针对全断面隧道掘进机的传送带上岩碴片重叠造成的图像分割不准确问题,提出一种基于深度学习的密集岩碴片图像分割方法。该方法首先将原图像做预处理,标注并制作岩碴片图像数据集;然后,改进 U-Net 模型的结构,通过深度监督以及新的混合损失函数优化模型学习分割表示的能力;训练改进后的模型分割图像,利用 OpenCV 获取面积与长、短轴等参数;最后与最大类间方差法、分水岭分割及传统 U-Net 模型进行比较,结果表明,所提出岩碴片图像分割的方法在准确率、F1 分数、重叠度指标上分别为 96.21%、94.66%和 90.04%,预测单张图片耗时 1.47 秒,证明了所提出方法的准确性和有效性。
关键词:中文名称;岩碴片;机器视觉;图像分割;深度学习;U-Net;模型评价;特征参数
赵先琼; 邓志强; 邓朝晖; 梅勇兵; 夏毅敏 哈尔滨工程大学学报 2021-12-03
全断面硬岩隧道掘进机(tunnel boring machine, TBM)通过滚刀破岩而使隧洞全断面一次成型,现在广泛应用于地下工程。作为 TBM 掘进过程中的直接产物,岩碴片的形状以及粒径分布等参数特征具有重要观测意义。利用相机获取皮带机上岩碴片图像,通过深度学习模型分割图像并统计岩碴片粒径分布,有助于快速高效的评价 TBM 破岩效率、获得隧道围岩等级和岩体性质。
陈文莉等[1]和宋克志等[2]基于现场掘进实验对岩碴片大小及粒径分布模型进行研究,结果表明, Rosin-Rammler 分布函数能较好地拟合岩碴片的粒径分布,但是人工筛选的方法效率低。Aydin[3]认为机械开挖过程中得到的岩碴片,反应了岩石的地质特征,统计粒径分布可以确定机械切割效率。闫长斌等[4]对 TBM 施工过程中产生的岩碴片进行现场测量和筛分试验,结果表明岩碴片尺寸、大小特征与岩体性质有关。 Jianbin Li[5]认为用机器视觉进行图像采集、岩碴片边缘分割以及粒径分布统计,具有数据标准统一的优点。Gordon Christie[6]搭建一种机器视觉检测矿石系统,检测岩石尺寸并对矿石的粒度分布进行估计;Xiuzhen Hu 等[7]提出一种基于归一化互相关的局部区域生长算法分割TBM运输带上的岩碴片,对较大尺寸的岩碴片测量效果误差小。数字图像处理技术为岩碴片粒度分析提供了可行的办法,但是数字图像处理技术所得结果精度不高。
随着深度学习的不断发展,众多学者利用机器视觉和深度学习进行岩碴片图像的分割。Hadi Yaghoobi 等[8]收集 226 张爆破岩石的图像制作数据集,通过傅里叶变换、Gabor 滤波器、小波变换来提取图像中岩石的特征参数,作为神经网络的输入向量,最终得到的模型对岩石粒径分布的结果分别比传统数字图像方法处理提高 67%、57%和 48%。 Zhenfeng Xue 等[9]采集岩碴片图像制作数据集,训练 FCN 和 GCN 网络分别提取岩碴片目标掩膜和轮廓掩膜,混合两个掩膜,得到岩石面积的预测结果。然而,上述方法采用的模型对于边缘重叠、粘连的密集岩碴片的精细分割效果仍不够好,且操作处理复杂。因此,本研究的目标是训练一个深度学习模型以克服上述问题,利用改进的 U-Net 模型学习岩碴片的分割表示,通过深度监督以及新的混合损失函数让模型更好地从像素级、块级和图像级学习岩碴片整体分割和边缘的精细分割,最终得到岩碴片的粒径参数分布。
1 数据集的准备
图像分割任务依赖于大量标注良好的图像数据,然而目前没有注释良好的岩碴片开源数据集,因此,获取足够多的岩碴片图像以及对这些图像的标注,对实现岩碴片图像分割至关重要。为此,在本研究中采集了大量的岩碴片图像,制作一个类似于 COCO 的数据集。
1.1 岩碴片图像采集
在本研究中,参照 TBM 皮带机和施工现场,设计了一套岩碴片图像采集实验台。该实验台包含一个高分辨率线阵相机及线阵光源,皮带机,图像采集卡和计算机,皮带机在载有岩碴片的工况下,运行速度稳定在 2 m/s,相机视距为 600 mm,相机的行频最高可达 16 kHz。采集到的图片存储到计算机中,通过实验台获取的图片清晰、精度高,便于剪裁和预处理。
1.2 图像数据集的建立
采集到的岩碴片图像通过灰度化、中值滤波、自适应直方图均衡化等方法进行预处理,效果如图 2,预处理后的图片变为灰度单通道图像,网络输入层计算量降低至原来的三分之一,经过中值滤波、自适应直方图均衡化的处理,消除噪声,提升图像的对比度。为了充分利用 U-Net 模型的计算能力,将获得的图片裁剪成小尺寸图片,以滑动窗口的方式进行剪裁,滑动窗的尺寸为 512×512,滑动窗口步长为 320。最后,对处理后的岩碴片图像进行标注,沿岩碴片的轮廓进行标记,只标注岩碴片的清晰部分,轮廓多边形绘制完成后,写入岩碴片标签 ‘rock detritus’,本任务进行的图像分割基于语义分割,需要给岩碴片和背景分配两个不同的类别标签,其中岩碴片为 1,背景为 0。最后,得到了一个包含形状、面积等信息的注释文件,其中部分标注图像如图 3 所示。
将 标 注 好 的 数 据 集 命 名 为 岩 碴 片 数 据 集(RCMCO),包含 1200 张像素尺寸为 512×512 的注释图像,数据量较小,按照 6:2:2 的比例分成训练数据集(720)、验证数据集(240)和预测数据集(240)。在训练小数据集的图像分割时,通常要进行数据增强处理,包括旋转变换、镜面翻转、添加噪声、亮度变化,经过 9 类数据增强方法的处理,将训练集增强到 6480 张图片,更大的训练数据集,能防止过拟合,使模型更可靠。
1.3 岩碴片的特征
U-Net 模型训练的关键是通过对人为标注的图像进行自学习,从像素数据中学习如何将岩碴片从背景中分割出来,并进行岩碴片之间的分割。首先,岩碴片图像以像素值数组的形式被输入到 U-Net 模型中,卷积层通过比较相邻像素的灰度变化来提取边缘特征,岩碴片边缘和背景之间有明显的灰度变化,利用提取的边缘特征模型可以快速地将像素点进行边缘和背景之间的分类。对于边缘重叠的岩碴片,岩碴片间的灰度变化不大,因而赋予相互接触的岩碴片之间的背景标签更高的损失权重,从而学习重叠岩碴片的分割表示。
2 岩碴片图像分割框架
Olaf Ronneberger 等[10]提出 U-Net,最初应用于生物细胞或医学图像分割,而细胞图像所具有的边缘粘连、模糊等复杂特点与皮带机上的岩碴片相似,因此,使用 U-Net 进行岩碴片的图像分割是可行的。 Liang Zhengyu 等[11]提出一种轻量级 U-Net 对颗粒图像进行分割,所得的分割结果准确;柳小波等[12] 提出一种结合 U-Net 和 Res_U-Net 网络模型对矿石图像进行图像分割的方法,实验表明,该方法分割结果比传统方法更为准确。为了实现对岩碴片图像的语义分割,生成高质量的掩膜,对 U-Net 网络进行改进并应用。在 U-Net 模型上进行改进,包括以下步骤:(1)改进 U-Net 模型的编码和解码结构;(2)引入深度监督,并改进损失函数。
2.1 U-Net 网络结构
U-Net 是完全卷积神经网络(FCN),基于编码 -解码结构,通过跳跃连接结合来自解码器的高级语义特征和编码器的低级语义特征,结构如图 4 所示。左侧为下采样,分 4 组卷积操作进行,每组卷积操作后进行一次最大池化操作(下箭头),将图片缩小为原来的 1/2。右侧上采样过程,通过 4 组反卷积操作(向上箭头),每次上采样将图片扩展为原来的 2 倍,然后将对应下采样的特征图拼接到上采样的结果上(灰色长箭头)。最后用一个 1×1 的卷积操作将通道数减到 2。
2.2 U-Net 模型改进
U-Net 从被提出到现在,经过许多改进,其中 Zhou Z 等[13]提出的 U-Net++整合不同特征层所提取到的特征,但参数相较 U-Net 更大,对计算能力要求更高。Huang Huimin 等[14]提出的 U-Net3+,使得 U-Net 网络能更好地提取和融合多尺度的信息。密集岩碴片的图像分割要求精细的边界分割和准确的位置信息提取。不同尺度的特征,对于不同大小的目标物敏感度不同,传统 U-Net 结构在分割中,多次下采样和上采样容易丢失大岩碴片边缘信息和小岩碴本身,这需要尺度(感受野)小的特征来弥补。U-Net3+改变了编码器和解码器的连接方式,如图 5 所示,相较于 U-Net 网络只进行同尺度解码器和编码器的连接,在 U-Net3+中每一个尺度的解码器都结合了相同尺度及更小尺度的编码器的特征,同时还连接更大尺度解码器的特征,这些特征图提取了全尺度下的岩碴片图像细节特征和语义特征,增强岩碴片的边界分割能力。
作为示例,图 6 演示如何构造解码层