全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210404413.0 (22)申请日 2022.04.18 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王利民 权融威 武港山  (74)专利代理 机构 南京天翼专利代理有限责任 公司 321 12 专利代理师 奚铭 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于无锚框技术的时序动作检测方法 及检测器 (57)摘要 一种基于无锚框技术的时序动作检测方法 及检测器, 构建网络检测视频中的时序动作, 包 括特征提取网络、 时序特征金字塔、 边界偏移回 归器、 实例感知对齐模块和细化分类回归器, 特 征提取网络提取视频的时空特征, 时序特征金字 塔获得不同时间分辨率的特征, 边界偏移回归器 对每一个时序位置预测该时刻相对动作左右边 界的距离, 再经过变换得到动作起止时间, 实例 感知对齐模块根据动作起止时间获取用于精细 预测的动作特征, 细化分类回归器用于预测动作 类别和微调动作边界, 得到时序动作检测结果。 本发明直接回归距离动作左右边界的距离, 完成 视频中动作的时序定位和分类任务, 相比于现有 带锚框的检测器, 无需预先设置锚框, 更加简单 高效。 权利要求书2页 说明书7页 附图2页 CN 114821774 A 2022.07.29 CN 114821774 A 1.一种基于无锚框技术的时序动作检测方法, 其特征是构建检测网络, 对视频中的时 序动作进行检测, 网络结构包括特征提取网络、 时序特征金字塔、 边界偏移 回归器、 实例感 知对齐模块和细化分类回归器: 特征提取网络: 使用C3D作为基础网络结构对输入的视频序列I进行特征提取, 对于连 续T帧的图像序列I 提取得到视频特征序列f; 时序特征金字塔: 对得到的视频特征序列f使用不同核大小的池化层构建具有不同时 间尺度的多 级特征图; 边界偏移回归器: 将多级特征图送入由三个一维卷积层和一个可形变卷积层组成的神 经网络序列处理, 对时序特征序列中的每一个时序位置生成该时刻相对动作左右边界距离 的预测, 再将生成的动作边界偏移作用于特征序列中的每个时序位置从而得到预测的动作 边界; 实例感知对齐模块: 将预测的动作边界映射 回特征提取网络得到的视频特征序列f, 然 后在视频特征序列上得到属于动作边界所示动作的动作特征片段, 将该动作的特征片段长 度的一半作为上下文特征 的长度, 在动作边界前后分别得到上下文特征片段, 将两个上下 文特征片段与动作特征片段沿着时序维度拼接起来, 再经过自适应最大值池化层得到经过 对齐操作过后的动作特 征; 细化分类回归器: 将由实例感知对齐模块得到的动作 特征分别 输入两个分支进行分类 和回归, 在分类分支 中, 输出(C+1)维度的类别分数, 其中C表示动作类别的数量; 回归分支 采用RCNN提出的回归分支, 负责预测特征序列对应的动作边界偏移量, 即归一化的时序长 度和对数空间的中心偏移; 经过分类回归得到动作预测结果, 即动作的类别及在视频序列 中的边界; 经过上述网络结构, 对细化分类回归器得到的预测结果使用非极大值抑制算法进行去 重, 再将属于同一个视频 的每个视频片段的动作检测结果拼接起来, 得到最终的动作检测 结果。 2.根据权利要求1所述的一种基于无锚框技术的时序动作检测方法, 其特征是检测网 络的实施包括 生成训练样例阶段、 网络配置阶段、 训练阶段以及测试阶段, 1)生成训练样例: 对视频按照设定的采样帧率进行抽帧, 然后将视频分为若干个有重 叠的视频片段, 每个视频片段包含采样后的连续帧RGB图像和对应的动作实例标注, 最后将 视频片段作为网络 输入; 2)网络配置阶段, 配置特征提取网络、 时序特征金字塔、 边界偏移回归器、 实例感知对 齐模块和细化分类回归器; 3)训练阶段: 在边界偏移回归器的训练阶段中, 使用IoU  Loss监督预测的动作边界, 在 细化分类 回归的训练阶段中使用Cross ‑entropy Loss监督类别预测分支, 使用L1  Loss监 督回归预测分支, 在训练时使用真实标记监督三个分支独立完成训练, 再将三个损失函数 叠加, 对总体损失使用SGD优化器进行优化, 通过反向传播算法来更新网络参数, 直至达到 迭代次数; 4)测试阶段: 将测试集中的视频片段采集图像序列, 输入 网络, 得到在整个视频中的时 序动作检测结果, 验证 检测效果。 3.根据权利要求1或2所述的一种基于无锚框技术的时序动作检测方法, 其特征是生成权 利 要 求 书 1/2 页 2 CN 114821774 A 2训练样例时, 采样帧率为25fps, 将连续的T帧图像作为网络的输入序列I, T设为768, 如果该 视频片段中存在动作实例且存在的动作实例与该视频片段的IoA大于0.7, 则该视频片段被 选为一个训练样 本, 同为为了增加训练数据, 除了用滑动窗口从视频开头到结尾提取数据, 还从视频 结尾到开头再提取一次, 并采用随机水平翻转的数据增强策略进行 数据增强。 4.根据权利要求1所述的一种基于无锚框技术的时序动作检测方法, 其特征是对于细 化分类回归器, 在训练过程中, 预测的动作 实例只有在与真实动作的IoU值大于0.5时才被 认为是正样本, 否则被认为是背景样本, 分类分支 中产生的分类损失记为lcls, 采用Cross ‑ entropy loss, 回归分支中产生的回归损失记为lreg, 采用smooth  L1 loss; 最后对得到的 预测结果进行非极大值抑制进行去重 。 5.一种基于无锚框技术的时序动作检测器, 其特征是检测器具有计算机可读存储介 质, 其中配置有计算机程序, 所述计算机程序按照权利要求1 ‑4所述的检测网络编程, 计算 机程序被执 行时实现权利要求1 ‑4所述的基于无锚框技 术的时序动作检测方法。权 利 要 求 书 2/2 页 3 CN 114821774 A 3

PDF文档 专利 一种基于无锚框技术的时序动作检测方法及检测器

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于无锚框技术的时序动作检测方法及检测器 第 1 页 专利 一种基于无锚框技术的时序动作检测方法及检测器 第 2 页 专利 一种基于无锚框技术的时序动作检测方法及检测器 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。