一个专业的论文、出书、专利服务平台

品质、专业的

论文指导服务

基于行人分割与部位对齐的行人再识别

时间:2020-01-06分类:智能科学技术

  摘要 为了解决行人再识别中由于视角变化和背景干扰造成的错位匹配(未对齐)问题,提出一种基于行人分割的部位对齐网络(SegPAN)的方法,该网络由3部分组成:1) 构建一种基于RefineNet的行人分割网络(TL-RefineNet),以获得多个局部对齐部位;2)基于分割的行人部位,提出一种行人部位对齐网络,以提取多个局部对齐特征;3)通过一种加权融合的策略将提取的局部对齐特征融合,提高视觉特征的判别能力。在此基础上利用特征之间的相似度实现行人再识别。实验在Market-1501和DukeMTMC-reID数据集上进行测试,R1的性能分别达到90.5%和80.3%。结果证明该方法不仅有效的缓解了错位匹配问题,而且减少了背景的干扰,提高了再识别性能。

  关 键 词 行人再识别;行人分割;部位对齐网络;加权融合

化学工业

  0 引言

  行人再識别是指在非交叠的视频监控中寻找与目标一致的行人,该技术可以应用于行人检索、交叉摄像机跟踪等视频监控领域[1-5],是视频智能分析的一个重要组成部分。但由于光线、姿势和视角的多样性,使得跨场景中的行人匹配极具挑战性。众多的影响因素中,错位匹配是导致行人再识别失败的一个重要因素,究其原因可分为两类:1)行人检测不准确。例如,当图像中包含大量的背景或行人部位不全时[6-8],很容易造成局部背景与行人某区域之间的错误匹配(图1 a));2)不同视角中行人姿态的变化。例如,同一行人在骑车与行走时产生的对应匹配,也会造成错位匹配(图1 b))。

  为了解决行人再识别中的错位匹配,Zhang等[9]提出一个多分枝网络,每个分支对应行人图像中一个水平条区域,通过匹配对应的水平区域实现行人部位对齐,但当背景较大时,匹配效果并不理想。Su等[10]构建了一个深度对齐网络,网络不仅提取全局特征,同时对整个行人进行重定位,利用重定位的行人进行相似度比较以实现行人的对齐,但该方法并没有对行人部位进行细分,导致算法对行人姿态的鲁棒性会受到影响。此外,许多方法借助于行人关键点实现行人部位对齐[11-18]。Zheng[13]将行人划分为14个关键点,利用这些关键点把行人划分为若干个区域,同时为了提取不同尺度上的局部特征,还设定了3个不同的PoseBox组合进行映射矫正对齐。与方法[13]不同的是,Zhao[15]并没有用仿射变换来实现局部对齐,而是直接利用行人关键点来抠出多个行人部位,然后将这些区域和原始图像一并输入到对齐网络进行特征匹配。由于该方法的抠取方式过于简单使得算法无法获取精确的部位区域,不可避免地引入无关背景,并且关键点的检测并不可靠[19]。

  为了解决行人未对齐,提高算法对姿态变化的鲁棒性,本文提出一种新的再识别方法,该方法不仅提取全局特征,同时还对行人的各个部分进行了区域划分,通过对应部位之间的匹配实现行人对齐,与其他方法[11-15]不同的是,本方法并沒有采用行人关键点进行行人区域划分,而是采用一种行人分割的策略完成图像中行人各部分的有效分割(头部、躯干、腿等),在此基础上进一步构建行人部位对齐网络实现行人部位对齐。此外,在融合部位对齐特征时,采用一种加权的策略以提高特征鲁棒性。通过该方法不仅能实现行人与背景的分离,消除背景的干扰,而且能有效地提高行人对齐效果(图2)。

  本文主要的贡献可归纳为以下3点:

  1)提出基于行人部位分割对齐的再识别网络,网络的输入不仅包含分割的行人区域,而且包含对应区域置信特征,该特征可以对分割的效果进行有效反馈,提高局部特征的可靠性。

  2)为了获取良好的行人分割效果,提出基于过渡层(Transition Layer)的RefineNet网络(TL-RefineNet),以实现对行人部位的精确分割。

  3)提出一种加权融合的方法,将提取的多个区域特征进行加权,实现多个对齐特征的有效融合,进一步提高特征的可区分性。

  为了验证提出方法的有效性,在两个标准行人再识别数据集进行验证,分析其有效性及各部分的作用,并与其他主流方法进行性能比较。

  1 本文方法

  本文方法主要包括3个部分:行人分割、行人部位对齐以及行人对齐特征的融合(图2)。首先利用提出的TL-RefineNet网络将行人图像进行分割,得到多个行人分割区域,例如,行人上半区域和行人下半区域。然后基于分割的行人区域,构建行人部位对齐网络,提取部位对齐特征。最后通过加权融合的方式将提取的对齐特征进行融合,提高特征的鲁棒性。在该基础上计算特征之间的相似性,获得最终结果。

  1.1 TL-RefineNet与行人部位分割

  本研究目标是分割出行人对齐部位,然后将其应用到行人部位对齐网络,以解决行人错位匹配问题。但直接对re-ID数据集中的行人进行分割将面临两个主要问题:1)由于re-ID数据集没有语义分割标签,很难直接在re-ID数据集上训练分割网络;2)直接利用在非re-ID数据集(如Person Parts Dataset [20])训练的分割模型,用在re-ID数据集上进行分割,并不能获得理想的分割效果。其主要原因在于:在re-ID数据集中,行人图像的分辨率太低(尺寸小),使得图像分割目标过小,许多细节特征不足。但是,在re-ID数据集中,行人已被裁剪好,并且他们在图像中占据了绝大部分区域。因此一个合适的放大操作不仅能放大分割目标,而且因放大而导致的背景干扰也是有限的。基于此思路,本文提出一个过渡层嵌入到RefineNet分割网络中,以实现图像中行人各部位的良好分割。

  具体的,过渡层由一个双线性差值构成,设插值像素值f (m, n)如公式(1)所示:

  [fm,n=θ1θ2Q11Q12Q21Q22θ3θ4][,] (1)

  式中:[θ1=m2-m,][θ2=m-m1,][θ3=n2-n,][θ4=n-n1,][Q11=m1,n1,][Q12=m1,n2,][Q21=m2,n1,][Q22=m2,n2]表示[fm,n]的4个近邻坐标。放大尺度参数设为α,该参数可通过网络训练获得。首先在Person Parts 数据集上训练基础的RefineNet,然后将T-Layer层嵌入到训练好的RefineNet(如图3所示)。最后通过固定RefineNet网络的其他参数,利用部分分割结果训练尺度参数。行人分割网络的输出为预定义的分割标签,即行人上半部分(包括行人头部、上臂和躯干)和行人下半部分(包括行人躯干以下及腿部,如图2所示)。

  1.2 基于分割的行人部位对齐网络

  为了缓解行人未对齐问题,本文基于分割的行人区域构建一个行人部位对齐网络。该网络针对每个行人部位构建一个分支网络,从而提取部位对齐特征。

  此外,考虑到,当行人被严重遮挡时,行人的分割效果会受到一定的影响。为了弥补这一影响,本文将原始图像单独作为一个网络分支,合并到整个行人对齐网络中,共构建3个网络分支。每个网络分支的基本结构为Resnet50网络的pooling5层及以前的所有网络层结构。特别的,每个网络分支的输入除了分割后的RGB图像,由分割获得的对应的置信特征也被输入到对齐网络中,以提高分割结果的可靠度。将每个网络分支输出的1×1×2 048维特征作为部位对齐特征。具体结构如图2所示。

  在训练时,由于不同数据集的行人数目不同,本文增加了一个全链接层以调整输出结果的维度变化。Softmax用来将每一个行人的预测值[ak]归一化到[0, 1]:

  [pkx=expakk=1Kak][,] (2)

  式中[K]表示数据集中行人的类别数目 (Person ID)。通过交叉熵来迭代获取每个分支网络的最小损失值:

  [lossi=-k=1K(log(p(k|x))q(k|x))][,] [qy|x=1,y=k0,y≠k], (3)

  式中:x表示网络输入特征;i =1,2,3对应3个网络分支;y为类别标签。此外,当行人图像检测不准确或者存在大量背景时,在输入对齐网络之前,本文通过双线性差值对分割结果进行裁剪、尺寸调整,从而实现行人初步对齐,如图4所示。

  1.3 局部对齐特征的加权融合

  为了反映不同部位在再识别过程中的重要程度,本文提出一种特征加权融合方法,来提高行人特征的鲁棒性。在此过程中,使用3个(1×1)加权卷积核对提取的3个对齐特征进行加权融合,然后通过一个全连接层,来调整融合后特征的输出维度(不同数据集中行人数目不同)。

  推荐阅读:《化学工业》(月刊)创刊于1983年,由中化国际咨询公司(石油和化学工业规划院)主办。为“化工系统信息成果一等奖”刊物。

获取免费资料

最新文章