全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221082875 6.X (22)申请日 2022.07.14 (71)申请人 南京工业大 学 地址 211816 江苏省南京市浦口区浦珠南 路30号南京工业大 学 (72)发明人 王子杰 薛敬祎 朱艾春 胡方强  李义丰  (51)Int.Cl. G06V 40/10(2022.01) G06V 20/62(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 基于跨模态相关性图推断方法的文本行人 重识别算法 (57)摘要 本发明本发明提供了一种跨模态相关性图 推断方法的文本行人重识别算法, 所述方法包括 以下步骤: 通过跨模态相关性图推断方法, 得到 行人的文本特征向量与视觉特征图; 将得到的行 人文本特征向量与视觉特征图送入基于监督机 制的特征提取网络进行处理, 得到两种模态全局 与局部对应特征; 利用多模态的全局与局部特征 构建相关性图, 进行图推断得到相似度, 进行匹 配, 输出识别结果。 本发明针对目前基于图像的 行人重识别可能会面临缺少目标行人查询图像 的问题, 选择文本描述作为查询条件提高了可访 问性; 提出一种基于跨模态相关性图推断方法的 文本行人重识别算法, 充分挖掘了图文数据之间 的跨模态高阶相关性信息, 可提高检索精度与稳 定性。 权利要求书3页 说明书6页 附图3页 CN 115116096 A 2022.09.27 CN 115116096 A 1.一种基于跨模态相关性图推断方法的文本行人重识别算法, 其特征在于, 所述方法 包括以下步骤: 步骤1、 使用图像 ‑文本多模态预训练方法进行数据预处理得到所述行人的文本特征矩 阵E与视觉特征图F; 步骤2、 采用监督学习的方式将已提取的前述行人文本特征矩阵E与视觉特征图F进行 处理, 得到文本与视 觉的全局与局部特 征; 步骤3、 利用得到的文本与视觉的全局与局部特征求取多粒度相关性, 由此构建跨模态 相关性图推理方法, 进行模型训练, 得到训练模型; 步骤4、 利用所述训练模型结合目标行人的文本描述和待识别行人进行行人重识别, 从 而得到行 人重识别结果; 所述的基于跨模态相关性图推断方法包含1个视觉特征图提取模块, 1个文本特征向量 提取模块; 所述行人重识别方法包括2个全局分支网络和2个局部分支网络 。 2.根据权利要求1所述行人重识别方法, 其特征在于, 利用得到的文本与视觉的多粒度 相关性, 构建跨模态相关性图进行图推断, 实现高效的文本行 人重识别。 3.根据权利要求1的步骤1中所述的图像 ‑文本多模态预训练方法, 其特征在于, 所述文 本特征矩阵提取模块为1个包含有多头注 意力机制的BERT的模 型与1个三层双向LSTM模 型, 用于得到文本特 征矩阵E。 4.根据权利要求1的步骤1中所述的图像 ‑文本多模态预训练方法, 其特征在于, 所述视 觉特征图提取模块 为ResNet ‑50, 用于得到 视觉特征图F。 5.根据权利要求1的步骤2中所述行人重识别方法, 其特征在于, 所述全局网络分支网 络目的是提取文本与视觉的全局特征, 在提取文本全局特征时包括1个行最大池化(RMP) 层, 与图像数据共享卷积层, 文本全局特 征为: tg=WgRMP(E) 在提取视觉全局特征时包括1个全局最大池化(GMP)层, 与文本数据共享卷积层, 视觉 全局特征为: vg=WgGMP(F)。 6.根据权利要求1的步骤2中所述行人重识别方法, 其特征在于, 所述局部分支网络旨 在提取文本与视觉的局部特征, 在提取文本局部特征时包括 1个与图像数据共享卷积层, 文 本局部特 征为: 其中Ek为通过第k个文本单 元对应的文本特 征向量; 在提取图像局部特征时包括1个全局最大池化层, 与文本数据共享卷积层, 图像局部特 征为: 权 利 要 求 书 1/3 页 2 CN 115116096 A 2其中Fk是按照k份水平分割(不重 叠), 得到的第k个部分的视 觉特征向量。 7.根据权利要求1的步骤3中所得行人重识别方法, 其特征在于, 所述的跨模态相关性 图推理方法旨在挖掘图文信息之间的高阶相关性, 包括1个特征相关性模块, 1个全局相关 性表征模块, 1个局部相关性表征模块, 1个相关性图推理模块。 8.根据权利要求7所得跨模态相关性图推理方法, 其特征在于, 所述的特征相关性模块 目的是建模跨模态信息之间的相关性, 相关性定义 为: 9.根据权利要求7所得跨模态相关性图推理方法, 其特征在于, 所述的全局相关性表征 模块目的是表征全局图文特 征之间的相关性, 其定义 为: sg=s(vg, tg; Wg)。 10.根据权利要求7所得跨模态相关性图推理方法, 其特征在于, 所述的局部相关性表 征模块目的是表征局部图文特 征之间的相关性, 其定义 为: 11.根据权利要求7所得跨模态相关性图推理方法, 其特征在于, 所述的相关性图推理 模块目的是挖掘高阶的跨模态相关性, 进一步对齐图文信息, 包括图构建和图推理两个阶 段。 12.根据权利要求11所得相关性图推理模块, 其特征在于, 所述的图构建阶段目的是构 建得到跨模态的相关性图, 以全局 和局部相关性特 征作为图节点: N={sg}∩s1 图的边为: 13.根据权利要求11所得相关性图推理模块, 其特征在于, 所述的图推理阶段目的是动 态更新图的节点与边, 以实现对跨模态高阶信息的挖掘, 其更新过程 为: 其中n为时间步数, 所有节点 求均值得到跨模态相关性S。权 利 要 求 书 2/3 页 3 CN 115116096 A 3

PDF文档 专利 基于跨模态相关性图推断方法的文本行人重识别算法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态相关性图推断方法的文本行人重识别算法 第 1 页 专利 基于跨模态相关性图推断方法的文本行人重识别算法 第 2 页 专利 基于跨模态相关性图推断方法的文本行人重识别算法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。