全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210362715.6 (22)申请日 2022.04.07 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 申请人 杭州电子科技大 学信息工程学院 (72)发明人 张海平 胡泽鹏 刘旭 马琮皓  管力明 施月玲  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 杨天娇 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于视频多路径时空特征网络的动作 识别方法 (57)摘要 本发明公开了一种基于视频多路径时空特 征网络的动作识别方法, 包括: 获取待识别的视 频, 根据帧率从视频中抽取若干张图像并对图像 进行预处理; 按照不同的采样率 分别从预处理后 的若干个图像中抽取不同数量的图像, 形成多个 图像序列; 建立时空特征网络模型, 时空特征网 络模型包括多个特征提取模块, 各图像序列一一 对应输入至特征提取模块获取时空特征矩阵; 将 各特征提取模块输出的时空特征矩阵聚合, 输出 特征向量; 利用分类器对特征向量进行分类检 测, 以概率最高的类别作为检测结果。 该方法能 够大幅提升动作视频分类的准确度, 并有助于增 强网络模型对动作视频的理解, 显著提升鲁棒 性, 从而能够应对现实生活中的复杂场景。 权利要求书2页 说明书6页 附图2页 CN 114648722 A 2022.06.21 CN 114648722 A 1.一种基于视频多路径时空特征网络的动作识别方法, 其特征在于: 所述基于视频多 路径时空特 征网络的动作识别方法包括如下步骤: S1、 获取待识别的视频, 根据帧率从视频中抽取若干张图像并对图像进行 预处理; S2、 按照不同的采样率分别从预处理后的若干个 图像中抽取不同数量的图像, 形成多 个图像序列; S3、 建立时空特征网络模型, 所述 时空特征网络模型包括多个特征提取模块, 各所述图 像序列一 一对应输入至所述特 征提取模块, 所述特 征提取模块执 行如下操作: S31、 获取对应图像序列的中间特征X∈RN×T×C×H×W, 其中, N为批尺寸, T为视频总帧数, C 为图像的通道数, H为图像的高度, W 为图像的宽度; S32、 将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1, 并计算差值X1‑X0作为差异 特征, 其中, X0为中间特 征X的前半部分, X1为中间特 征X的后半部分, X0、 X1∈RN×(T/2)×C×H×W; S33、 将差异特征依次经过最大池化层、 第一多层感知机和 sigmoid层输出空间注意力 特征; S34、 将空间注意力特 征与中间特 征X点乘后再与中间特 征X相加, 获得空间特 征图; S35、 将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征 图和第一平均池化特 征图; S36、 将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第 二最大池化特 征图和第二平均池化特 征图; S37、 将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度, 再通过卷积层获得融合特 征图; S38、 将第二最大池化特征 图、 第二平均池化特征图和融合特征图分别经过sigmoid层 对应获得第一池化信息图、 第二池化信息图和第三池化信息图; S39、 将第一池化信息图、 第二池化信息图和第三池化信息图相加形成第四池化信息 图, 所述第四池化信息图与空间特 征图点乘后再与空间特 征图相加, 输出时空特 征矩阵; S4、 将各所述特征提取模块输出的时空特 征矩阵聚合, 输出 特征向量; S5、 利用分类 器对所述特 征向量进行分类 检测, 以概 率最高的类别作为检测结果。 2.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法, 其特征在于: 步 骤S1中, 所述预处 理为随机 裁剪图像至 宽高为[25 6,320]像素。 3.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法, 其特征在于: 步 骤S3中, 所述时空特 征网络模型包括2个特 征提取模块。 4.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法, 其特征在于: 步 骤S37中, 所述将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个 维度, 再通过卷积层获得融合特征图还包括squeeze操作和 unsqueeze操作, 所述卷积层为 1D卷积层, 所述sque eze操作、 co ncat操作、 1D卷积层和unsque eze操作依次进行。 5.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法, 其特征在于: 所 述第一多层感知机的缩减系数为r、 放大系数为2r, 所述第二多层感知机的缩减系数和放大 系数均为r, r=16 。 6.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法, 其特征在于: 步 骤S4中, 所述将各特征提取模块输出 的时空特征矩阵聚合时, 每个时空特征矩阵的权重比权 利 要 求 书 1/2 页 2 CN 114648722 A 2为1∶ 1。权 利 要 求 书 2/2 页 3 CN 114648722 A 3

PDF文档 专利 一种基于视频多路径时空特征网络的动作识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视频多路径时空特征网络的动作识别方法 第 1 页 专利 一种基于视频多路径时空特征网络的动作识别方法 第 2 页 专利 一种基于视频多路径时空特征网络的动作识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。