全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221097845 6.X (22)申请日 2022.08.16 (71)申请人 山东科技大 学 地址 266590 山东省青岛市黄岛区前湾港 路579号 (72)发明人 单彩峰 刘振宇 张彰 张鹏  陈宇  (74)专利代理 机构 青岛智地领创专利代理有限 公司 37252 专利代理师 韩孟霞 (51)Int.Cl. G06V 40/10(2022.01) G06T 7/11(2017.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 20/40(2022.01) G06V 20/52(2022.01) (54)发明名称 一种基于双分支自注意力网络的行人属性 识别方法 (57)摘要 本发明公开了一种基于双分支自注意力网 络的行人属性识别方法, 属于模式识别技术领 域, 包括如下步骤: 图像数据采集及处理, 构建并 划分数据集; 图像特征提取; 构建双分支自注意 力行人属性识别网络模型获取图像属性相关信 息和上下文区域信息; 训练输出性能良好的双分 支自注意力网络模型; 通过监控视频实时采集行 人图像, 利用训练完成的两分支自注 意力网络模 型进行行人属性的自动识别。 本发 明采用双分支 自注意力网络获取属性相关信息和上下文关系, 并结合约束损失等对属性特征分类进行限制, 提 升了属性分类性能, 能够在大规模监控场景下稳 定实现行 人属性识别。 权利要求书3页 说明书8页 附图4页 CN 115439884 A 2022.12.06 CN 115439884 A 1.一种基于双分支自注意力网络的行 人属性识别方法, 其特 征在于, 包括如下步骤: 步骤1、 图像数据采集及处 理, 构建并划分数据集; 步骤2、 图像特 征提取; 步骤3、 构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文 区域信息, 双分支包括属 性分支和上下文分支, 属 性分支包括二 阶自注意力模块和属 性自 注意力模块, 上 下文分支包括区域特 征映射模块和上 下文自注意力模块; 步骤4.训练输出性能良好的双分支自注意力网络模型; 步骤5、 通过监控视频实时采集行人图像, 利用训练完成的两分支自注意力网络模型进 行行人属性的自动识别。 2.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法, 其特征在于, 所 述步骤1的具体过程为: 从监控视频中提取行人图像, 并进行属性标注和裁剪; 将图像统一 裁剪成大小为256 ×128像素的图片, 构成图片数据集D, 并将数据集D划分为训练集Dtrain和 测试集Dtest。 3.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法, 其特征在于, 所 述步骤2的具体过程为: 使用ResNet50作为骨干网络, 利用批处理方法批量输入图片, 得到 特征图X∈RC×H×W, 其中H、 W和C分别代 表特征图的长度、 宽度和维度。 4.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法, 其特征在于, 所 述步骤3的具体过程 为: 步骤3.1、 基于二阶自注意力模块和 属性自注意力模块计算属性分支的预测值 步骤3.2、 基于上 下文自注意力模块计算上 下文分支的预测值 步骤3.3、 最终分类预测结果表示为 和 的平均值, 利用Sigmoid进行加权处理, 获取 最终属性分类结果, 将最终属性分类结果大于 0.5的取1, 小于等于 0.5的取0 。 5.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法, 其特征在于, 所 述步骤3.1的具体过程 为: 二阶自注意力模块的计算过程如下: 步骤3.1.1、 特征图X通过1 ×1卷积得到维度为 的三维张量, 再改变该张量的维 度变换成二维矩阵 Q=H×W, 相同操作重复三次生成特征图X的三个投影矩阵, 分别为 KS、 QS和VS, 维度均为 其中, 输入通道为C维, 输出通道为 维, r表示采样降低倍 率; 步骤3.1.2、 使用投影KS和投影QS计算协方差矩阵 如式(1)所示, 其中, I和1分别是Q维单位矩阵和全一矩阵; 步骤3.1.3、 采用Softmax函数处 理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子; 步骤3.1.4、 将步骤3.1.3得到的结果与VS点乘得到 如式(2)所示, 并将 展开为形权 利 要 求 书 1/3 页 2 CN 115439884 A 2状为 的张量; 步骤3.1.5、 最后将 和特征图X通过1 ×1卷积得到的维度为 一阶特征拼接 起来, 共同作为后续属性自注意力模块的输入; 属性自注意力模块的计算过程如下: 步骤3.1.6、 输入形状为 的三维特征图通过不同的1 ×1卷积并将最后两维数 据维度变换成一维以获得KA、 QA和VA, 分别表示属性自注意力模块的三个输入投影矩阵, 其 中 NH和M分别是注意力头数和属性个数, DA表示属性特征 映射的维度; 步骤3.1.7、 根据式(3), 将矩阵KA和矩阵QA的转置相乘, 在通过Sigmoid操作得到各属性 的注意力分数 该分数代 表了输入中包 含某种属性的概 率, 式中M表示属性个数; 步骤3 .1 .8、 将上述注意力分数 与VA相乘得到各注意力头数对应的预测值 步骤3.1.9、 然后沿NH维度对 进行求和, 将其拉伸成一个维度为M的属性自注意力模 块初步预测结果 步骤3.1.10、 设计约束损失函数 来限制预测分数, 如式(4)所示, 其中, ωj表示训练数据集中第j个属性所占的权重, pij、 yij分别表示第i个样本的第j个 属性的预测值和标签值; 步骤3.1.11、 最后, 对初步预测结果 进行线性化处理, 并且与KA相加, 得到属性分支 最终预测结果 表示为式(5), 其中, WA∈RM×M表示线性 化处理分类器参数。 6.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法, 其特征在于, 所 述步骤3.2的具体过程 为: 步骤3.2.1、 首先采用标记化方案将特征图聚合成K个紧凑视觉标记, 其中K<<H ×W; 对于输入 特征图X∈RH×W×C, 通过局部聚合描述符向量计算核进 行标记软分配, 并计算第k个权 利 要 求 书 2/3 页 3 CN 115439884 A 3

PDF文档 专利 一种基于双分支自注意力网络的行人属性识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双分支自注意力网络的行人属性识别方法 第 1 页 专利 一种基于双分支自注意力网络的行人属性识别方法 第 2 页 专利 一种基于双分支自注意力网络的行人属性识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:17:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。