全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210597200.4 (22)申请日 2022.05.26 (71)申请人 重庆大学 地址 400044 重庆市沙坪坝区沙正 街174号 (72)发明人 葛永新 李自强 陈忠明 俞佳若  徐玲 洪明坚 杨梦宁 张小洪  杨丹  (74)专利代理 机构 重庆晟轩知识产权代理事务 所(普通合伙) 50238 专利代理师 孔玲珑 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的细粒度行为识别方法 (57)摘要 本发明涉及一种基于深度学习的细粒度行 为识别方法, 包括如下步骤: 选用公开数据集, 构 建细粒度行为识别模型M, 该模型包括基础行为 识别模型TSN/TSM和行为扩展模型DFLM两部分; 通过M中的基础行为识别模型对公开数据集中的 视频进行特征提取, 然后根据特征及相应标签构 建得到三条支流结构; 通过行为扩展模型DFLM 执 行自底向上和自顶向下两个阶段得到元素级和 集合级的新特征; 构建损失函数并通过损失函数 对模型M进行训练, 得到训练好的细粒度行为识 别模型; 通过将元素级和集合级的新特征输入到 现有的分类器模 型中, 得到最终的细粒度行为识 别结果。 本发 明方法能够对实际中行为间的差异 性引起的更为复杂多变的更细粒度行为进行准 确的识别。 权利要求书3页 说明书11页 附图2页 CN 114821669 A 2022.07.29 CN 114821669 A 1.一种基于深度学习的细粒度行为识别方法, 其特 征在于: 包括如下步骤: S100: 选用包含N个视频数据的公开数据集 其中Vi表示第i个视频, 每个视频包 含该视频的事件级语义标签 集合级语义标签 和元素级语义标签 其中, Ceve、 Cset和Cele分别表示事 件级、 集合级和元 素级对应的类别数目; S200: 构建细粒度行为识别模型M, 该细粒度行为识别模型M包括基础行为识别模型 TSN/TSM和行为扩展模型DFLM; S300: 令i=1; S310: 将第i个视频输入到基础行为识别模型TSN/TSM中, TSN/TSM模型共包含四层结 构, 从TSN/TSM模型的第二层提取到相应的粗粒度特征xeve∈Rc×h×w,从TSN/TSM模型的第三 层提取到相应的中粒度特征xset∈Rc×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特 征xele∈Rc×h×w, 其中c表示特征通道数, h和w分别表 示特征矩阵的高和宽, 粗粒度特征xeve对 应事件级语义标签yeve, 中粒度特征xset对应集合级语义标签yset, 细粒度特征xele对应元素 级语义标签yele; 每种粒度特征与对应的级语义标签构建得到三条支流结构, 分别为事件级支流, 集合 级支流和元 素级支流, 每条流的监 督信息就 为对应的级语义标签; S320: 扩展模型DFLM运 算包括自底向上阶段和自顶向下阶段两个阶段; S321: 执行自底向上阶段: S321‑1: 拼接细粒度特征xele和中粒度特征xset, 然后将拼接结果输入到集合级支流中 计算元素级行为的共同语义特征 通过将 与粗粒度特征xeve进行拼接, 然后将 与粗粒度特征xeve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征 具体表达式如下: 其中, 表示特征拼接操作, Φset和Φeve分别表示集合级支流和事件级支流中的conv1 ×1层; S321‑2: 分别计 算集合级分支特征存储向量 和事件级分支特征存储向量 完成 特征存储库的更新过程, 计算表达式如下: 其中, i和j分别表示对应共同特征所属较为 粗粒度类别的真实标签, λ表示超参数; S321‑3: 使用L2均方损失优化对应粗粒度支流得到的共同语义特 征, 计算表达式如下: S322: 执行自顶向下阶段: S322‑1: 计算元 素级支流相似矩阵Aele和集合级支流的相似矩阵Aset, 计算表达式如下: 其中, Wele和Wset是可学习的矩阵参数, Γ( ·)是卷积核大小为1的2D卷积层;权 利 要 求 书 1/3 页 2 CN 114821669 A 2S322‑2: 对Aele和Aset进行归一 化操作, 表达式如下: Cele=softmax(Aele), Cset=softmax(Aset)    (5) 其中, softmax( ·)表示对变量在列维度进行操作, Cele和Cset分别表示对应的元素级共 同注意图和集合级共同注意图, 且 同时表示了对应的共 同语义特征 与相应的细 粒度特征 相似语义部分; S322‑3: 根据共同注意力图Cele和Cset, 通过取反操作计算对应的反共现图Sele和Sset, 表 达式如下: Sele=1‑Cele, Sset=1‑Cset;    (6) S322‑4: 通过反共现图Sele和Sset提取出细粒度特征 中类特有特征, 计算表达 式如下: 其中, 表示细粒度类特有特征, 表示中粒度类特有特征, Sele∈Rc×hw以及Sset∈ Rc×hw; S322‑5: 采用注意力机制对类特有特 征进行激活且保存原 始特征, 计算表达式如下: 其中, 和 表示用于更新参数的矩阵, σ( ·)是基于空间和通道维度的sigmoid 激活函数, aele和aset表示相应的类特有注意力权 重值, Rc×h×w为Rc×hw的重转化结果; S322‑6: 计算激活元素级支流细 粒度特征中的类特定信息和集合级支流细粒度特征中 的类特定信息, 计算表达式如下: 其中, x′ele表示元素级支流细 粒度特征的类特定信息, 即元素级新特征; x ′set表示集合 级支流细粒度特 征中的类特定信息, 即集 合级新特 征; S400: 计算细粒度行为识别模型M模型的总损失函数, 表达式如下: L=Lc+β·Ls+γ·Lr    (10) 其中, β 和γ是损失权 重调节的超参数; S500: 根据S40 0中的总损失函数L对细粒度行为识别模型M进行参数 更新; S600: i=i+1; S700: 如果i大于最大迭代次数, 则得到得到训练好的模型M ′, 并执行下一步; 否则返回 S310; S800: 将待预测视频的视频数据输入到训练好的模型M ′中, 得到该待预测视频的元素 级新特征x″ele和集合级新特 征x″set; S900: 将元素级新特征x ″ele和集合级新特征x ″set输入到现有的分类器模型中, 分类器 模型的输出 结果就是对待预测视频的细粒度行为识别结果。 2.如权利要求1所述的一种基于深度学习的细粒度行为识别方法, 其特征在于: 所述 S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下: S410: 计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函权 利 要 求 书 2/3 页 3 CN 114821669 A 3

PDF文档 专利 一种基于深度学习的细粒度行为识别方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的细粒度行为识别方法 第 1 页 专利 一种基于深度学习的细粒度行为识别方法 第 2 页 专利 一种基于深度学习的细粒度行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。