摘要: 为了解决违禁品带入公共场合的问题,本文对违禁品的识别进行了研究。在安检仪中,加入改进的YOLOv3网络检测算法,使其能够检测出违禁品,而在基础网络上,引入多维输入图和多分辨率输入图,增加了样本的多样性,有效解决了模型的适应性差的问题。在端到端的网络上,用分层方法进行特征提取和分类,获得不同尺度的特征图,以此来提高网络测试的精度,并采用聚类算法确定目标轮廓,使其能够精准定位。实验结果表明,改进的网络识别目标精度在90%以上,高于原网络的精准度。本网络效果好,具有较高的识别率,且封装在模块中,操作简单。该研究可有效提醒安检员防止违禁品带入公共场合,造成公共事故。
关键词: YOLOv3; 端到端; 特征提取; 聚类算法
随着人口的不断增多,公共场所的人口密度变得越来越大,一旦发生事故就后会产生拥堵的情况,逃离的可能性很小,因此,严禁违禁品带入人口密度大的场合[1]是解决问题的关键。2011年,在河南信阳段高速上,因车厢内违法装载易燃危险化学品突然发生爆燃,导致客车起火燃烧,造成人员的死亡和受伤。目前,安全检查主要包括行李物品检查、旅客证件检查、手提行李物品检查和旅客身体检查。其中,旅客证件检查主要是确定乘客基本信息,其它三项检查均是防止乘客携带刀、枪、易燃易爆品等危险物品,以确保公共场所及交通的安全。但在春运或法定假期期间,由于客流量较大,排队安检会发生拥堵情况,而且工作量的增加,也会使工作人员观察不仔细,导致违禁品带入公共场合,危害公共安全[2]。因此,针对这种状况,本文比较了你只看一次[35](you only look once version 3,YOLOv3)、单一多盒检测器[67](single shot multibox detector,SSD)、快速區域卷积神经网络[89](fast regionbased convolutional neural network,Fast RCNN)等网络的区别,最终选择了基于卷积结构的YOLOv3网络,对其进行改进,优化网络架构及层数,使其在计算过程中减少计算量。同时,根据样本信息,更改先验框维度大小,提高对目标的精准定位,对样本进行多样化处理,并进行多尺度训练,以保证算法能够快速准确的识别和定位出目标物体。该研究为工作人员减轻了工作负担,同时也降低了公共场合事故的发生率。
1YOLOv3相关理论
1.1基础层
1.1.1Darknet53
0~74层是YOLOv3主结构,其含有53层卷积层,故叫做Darknet53。YOLOv3结构、DBL模块结构和res unit模块结构如图1所示。Darknet53是由多个残差层组成,残差模块和残差层见图1中的res unit和res n,并用卷积层替代池化层,控制梯度的传播,在训练过程中,有效解决了迭代次数增多而产生的梯度消失或爆炸问题。
1.1.2多尺度训练
75~105层是3个尺度的特征层,在每个尺度中,通过卷积操作和上采样操作,将相同尺寸的特征图合成一个特征图,经过卷积处理得到新的特征图。在原YOLOv3中,归一化尺度为416×416,在darknet53之后,进行卷积操作得到13×13特征图,作为最小尺度y1。将79层的13×13特征图进行卷积和上采样操作,得到的特征图与61层的26×26特征图合并,得到中尺度y2。将91层的26×26特征图进行卷积和上采样操作,得到的特征图与36层的52×52特征图合并,得到最大尺度y3(见图1)。多尺度训练[10]可以更好地识别大小不一的目标,提高目标识别率,小尺度可检测小目标,大尺度可检测大目标,可以提高网络精度。本文中的样本缩放比例太大,会造成图片像素重叠,进而识别不出目标。因此,将归一化尺度更改为608×608,3个尺度设置为19×19,38×38,76×76。
1.2回归及改进
1.2.1分类方法
YOLOv3的分类方法,由单标签多分类的Softmax函数更换为多标签多分类的逻辑回归。逻辑回归分类步骤分为3步,分别是线性函数、数值到概率的转换及概率到标签的转换。
输入为X,逻辑回归采用sigmoid函数,将决策边界转换成值,保持在0~1之间的概率函数,用概率确定样本标签是某一类别的可能性。
为防止概率函数hθX过拟合,需在损失函数后加一项,则损失函数为
式中,m是样本个数;y是真实值;λ是正则化公式强度参数;hθX是输出结果。
损失函数梯度为
其中,λ为正则化的强度。
通过学习率对特征系数的迭代,得出某一值,就可算出特征向量系数θ。
1.2.2边框预测
边框预测是YOLOv3的方法,使用先验框的定义,即用Kmeans++算法对训练集上的目标尺寸大小进行聚类分析,使之有相似特征目标归为一类,并根据尺寸大小确定anchor box的维度。
YOLOv3运用与特征金字塔网络[11](feature pyramid networks,FPN)相近的上采样和融合思想,将输入图像分为多个尺寸不同的特征图,然后进行检测。YOLOv3中分成3个尺度,并将每个尺度输入图像的网格单元(grid cell)中,预测3个bounding box,且每个bounding box有5个基本参数,分别是x,y,w,h,confidence。
推荐阅读:中国公共安全(学术版)