(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210927259.5
(22)申请日 2022.08.03
(71)申请人 华中农业大 学
地址 430070 湖北省武汉市洪山区狮子山
街1号
(72)发明人 朱容波 郭志达 刘浩 李松泉
(74)专利代理 机构 湖北武汉 永嘉专利代理有限
公司 42102
专利代理师 刘琰
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 40/10(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于增强全局信息注意力的多尺度监
控行人重识别方法
(57)摘要
本发明公开了一种基于增强全局信息注意
力的多尺度监控行人重识别方法, 包括以下步
骤: 构建行人监控的数据集, 划分为训练集和测
试集; 构建基于增强全局信息注 意力的多尺度行
人重识别网络模 型, 该模型以多分支深度网络模
型为基础架构提取局部特征, 引入增强全局 信息
注意力机制, 通过多尺度网络提取局部特征并使
用注意力为局部特征赋予全局信息; 输入训练集
对模型进行训练, 通过多次的目标函数计算, 反
向传播后调整参数, 直到目标函数完成收敛; 通
过测试集进行测试; 输入待识别的查询集, 通过
多尺度行人重识别网络模型进行识别, 得到行人
重识别的结果。 本发明能够 有效应用于安防场景
下的行人重识别, 解决安防监控 下行人数据所带
来的问题。
权利要求书4页 说明书15页 附图5页
CN 115393788 A
2022.11.25
CN 115393788 A
1.一种基于增强全局信息注意力的多尺度监控行人重识别方法, 其特征在于, 该方法
包括以下步骤:
步骤1、 构建行人监控的数据集, 对数据集进行预处理和数据增强后, 将其划分为训练
集和测试集;
步骤2、 构建基于增强全局信息注意力的多尺度 行人重识别网络模型, 该模型以多分支
深度网络模型M GN为基础架构提取局部特征, 引入增强全局信息注 意力机制, 通过多尺度网
络提取局部特征并使用注 意力为局部特征赋予全局信息, 加强关键特征权重; 其中, 融合全
局信息注 意力机制RGA和卷积块注 意力模块CBAM, 将RGA的空间特征提取模块和通道特征提
取模块中加入CBAM注 意力相应机制, 构建了增强全局空间信息注 意力模块和增强全局通道
信息注意力模块, 两者组成增强全局信息注意力机制;
步骤3、 输入训练集对多尺度行人重识别网络模型进行训练, 通过多次的目标函数计
算, 反向传播后调整参数, 直到目标函数完成收敛, 得到训练好的多尺度行人重识别网络模
型;
步骤4、 通过测试集对训练好的多尺度行 人重识别网络模型进行测试;
步骤5、 输入待识别的查询集, 通过多尺度行人重识别网络模型进行识别, 得到行人重
识别的结果。
2.根据权利要求1所述的基于增强全局信息注意力的多尺度监控行人重识别方法, 其
特征在于, 所述 步骤1中构建行 人监控的数据集的方法为:
行人监控的数据集包括采集的多张行人图像, 每张行人图像对应一个行人ID, 行人图
像通过多台监控摄像头进行拍摄采集, 包括至少2个拍摄俯视角度的摄像头、 1个拍摄低光
照条件的摄像头和1个平行视角的常态摄像头, 每个行人至少被2个摄像头捕获; 行人图像
通过行人检测算法Yo lov5进行裁 剪边框; 并向划分的测试集中加入一定数量的干扰图像。
3.根据权利要求1所述的基于增强全局信息注意力的多尺度监控行人重识别方法, 其
特征在于, 所述步骤2中基于增强全局信息注 意力的多尺度行人重识别网络ERG ‑MGN模型具
体为:
ERG‑MGN模型以MGN为基础架构, 图片输入到ERG ‑MGN模型前先统一进行resize操作, 提
取其RGB通道特征转换成一定像素大小的特征图; 特征图输入模型后, 特征图先后经过
resnet50的conv1、 conv2、 conv3、 conv4_2, 其中在conv2和conv3层中间加入提出的
Enhanced RGA注意力机制模块;
引入Enhanced RGA注意力机制后, 特征图在Enhanced RGA机制模块中进行了一系列的
计算后获取到了 响应的注 意力并与 原输入特征图进行加权, 然后后进入conv3、 conv4_2; 在
特征图从co nv4_2输出后, 模型分成了2条支路:
分支1提取的是全局特征, 使用的是resnet50的conv5, 随后进行全局最大池化和1 ×1
的卷积获取输出;
分支2提取的是局部特征, 首先使输入特征图通过resnet50的conv5, 不进行下采样, 并
进行全局最大池化, 随后的特征图又进入2个 分支: part2分支、 part3分支, 即2次局部切割:
part2分支为输入特征切割成2部分, 并对2部分进行1 ×1的卷积获得相应输出; part3分支
为输入特 征切割成3 部分, 并对2部分进行1 ×1的卷积获得相应输出;
最后, ERG ‑MGN模型共得到8个输出的特征模块, 将这8个特征模块进行模块间拼接即为权 利 要 求 书 1/4 页
2
CN 115393788 A
2模型提取的行 人特征。
4.根据权利要求3所述的基于增强全局信息注意力的多尺度监控行人重识别方法, 其
特征在于, 所述 步骤2中的增强全局空间信息注意力模块具体为:
将卷积注意力模块CBAM的空间模块和RGA的空间模块的相结合, 提出了增强全局空间
信息注意力模块, 该模块的输入特 征图F, 高度为H, 宽度为 W, 通道数为C;
首先将输入特征图F的每个空间位置的C维通道特征向量作为一个特征结点, 获得一个
含有N个结点的图G, N =W×H, 这N个特征结点表示xi, xi∈RC,i=1,2......N;
定义卷积 操作 θ1来获取每 个结点的特 征表示, 其定义如下:
θ1(xij)=Relu(BN(Co nv1(xij)))
其中Conv1表示进行卷积核为1 ×1的卷积操作; BN为归一化操作, 表示进行对每一特征
通道进行normalize, 因此计算出所有样本每一通道的均值和方差, 具体为:
其中x表示输入, E(x)表示x的均值, Var(x)表示x的方差, ε取常用默
认值为0.00001; 最外层为了克服训练中的梯度消失问题, 加快训练速度, 加入了Relu激活
函数;
然后将结点 i和结点j的相关信息计算定义 为:
ri,j=( θ1(xi)Tθ1(xj))
计算中G所有特征结点的成对关系, 组成了一个含有N ×N个相关信息值的关系矩阵M,
其中Mij=ri,j; M中, 结点 i与其他N‑1个结点之间的关系信息为[M[i,:],M[ :i,]];
随后对关系矩阵M进行reshape操作, reshape表示对多维矩阵进行维度重组, 即对M矩
阵中的每一行拿出来, 按顺序组成一个W ×H×N的关系特征图F1, 以此表示结点z对其他结
点的空间特征联系信息; 对M中的每一列拿出来, 按顺序组成一个W ×H×N的关系特征图F2,
以此表示其他结点对结点z的空间特征联系信息; 其次, 为了学习第i个特征节点的空间特
征注意力, 除了两两关系项r外, 还需要考虑原特征本身F3, 从而充分利用全局信息和原始
信息特征, 因为得到这三种特征维度不同, 在神经网络计算中使用compose操作, 将这三种
特征信息嵌入在同一特征图中; 其中, F3是原特征进行全局最大池化后, 通道维度降维为1
的特征图, F3用于获取全局信息 。
5.根据权利要求4所述的基于增强全局信息注意力的多尺度监控行人重识别方法, 其
特征在于, 所述增强全局空间信息注意力模块的计算公式具体为:
将得到的F1、 F2、 F3进行连接操作后, 获得了SpatialF eature, 公式如下:
其中row表示将矩阵按行划分, column表示将矩阵按列划分, reshape表示对多维矩阵
按行或列顺序进行矩阵重组,
表示将多维特征矩阵在通道维度上进行连接, M表示对应特
征图F的关系矩阵;
随后对获取的Spatial Feature进行通道降维, 获得一个1 ×H×W的特征图表示, 具体
方式如下:
θ2(SF)=Relu(BN(Co nv2(SF)))
其中Conv2为卷积核1x1, 输出维度为1xHxW的卷积 操作;
最后的特征图表示与原特征进行相乘获得全局信 息特征加权的原特征图, 在最后输出权 利 要 求 书 2/4 页
3
CN 115393788 A
3
专利 一种基于增强全局信息注意力的多尺度监控行人重识别方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:17:09上传分享