全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613065.8 (22)申请日 2022.05.31 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 陈蕾 童湛 宋奕兵 王利民  (74)专利代理 机构 北京市柳沈 律师事务所 11105 专利代理师 王娟 (51)Int.Cl. G06V 40/20(2022.01) G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/771(2022.01)G06V 10/44(2022.01) G06V 10/42(2022.01) (54)发明名称 视频动作检测方法、 装置、 设备和存 储介质 (57)摘要 本公开的实施例提供了一种视频动作检测 方法、 装置、 设备和计算机 可读存储介质。 该方法 基于在视频片段中确定的行为者的局部特征和 全局特征, 对视频片段的时序场景特征进行特征 重组, 继而利用经特征重组的时序场景特征对行 为者的全局特征进行特征增强, 以实现视频中的 行为者和场景间的循环建模, 从而通过对视频中 的行为者和场景间的相互关系的学习从视频中 提取更优的行为者特征, 达到提升视频动作检测 性能的目的。 此外, 除了基于分离视频帧中的场 景信息来增强行为者特征, 本公开的实施例的方 法还通过对视频的时序场景特征进行时序平均 来获得视频场景的全局特征, 从而用于与前述增 强的行为者特征相结合 以更好地识别行为者的 动态和静态动作。 权利要求书3页 说明书19页 附图7页 CN 115116129 A 2022.09.27 CN 115116129 A 1.一种视频动作检测方法, 包括: 获取视频片段, 并确定所述视频片段中的行为 者; 基于所述行为者的局部特征和全局特征, 对所述视频片段的时序场景特征进行特征重 组; 基于所述视频片段的经特征重组的时序场景特征, 对所述行为者的全局特征进行特征 增强; 以及 基于所述行为者的经特征增强的全局特征、 以及根据所述视频片段的时序场景特征所 确定的特定 于所述行为 者的全局场景 特征, 确定所述行为 者的动作。 2.如权利要求1所述的方法, 所述方法还 包括: 从所述视频片段中提取所述视频片段的时空特征图, 所述 时空特征图用于指示所述视 频片段的时间特 征与空间特 征; 基于所述视频片段的时空特 征图以及所确定的行为 者, 确定所述行为 者的局部特 征; 通过对所述行为 者的局部特 征进行空间最大池化, 确定所述行为 者的全局特 征; 以及 对所述视频片段的时空特征图进行场景特征预处理, 以确定所述视频片段的时序场景 特征。 3.如权利要求2所述的方法, 其中, 基于所述行为者的局部特征和全局特征, 对所述视 频片段的时序场景 特征进行特征重组包括: 基于所述行为者的局部特征和全局特征, 从所述视频片段的时序场景特征中筛选出与 所述行为者相关联的时序场景特征, 并利用筛选出的时序场景特征对所述视频片段的时序 场景特征进行重组更新; 以及 通过对所述视频片段的时序场景特征进行多次筛选与重组更新, 获得所述视频片段的 经特征重组的时序场景 特征, 所述经 特征重组的时序场景 特征特定于所述行为 者。 4.如权利要求3所述的方法, 其中, 所述视频片段包括多个视频帧; 基于所述行为者的局部特征和全局特征, 从所述视频片段的时序场景特征中筛选出与 所述行为者相关联的时序场景特征, 并利用筛选出的时序场景特征对所述视频片段的时序 场景特征进行重组更新包括: 对所述行为者的局部特征和全局特征进行拼接, 并确定所述多个视频帧中的每个视频 帧的时序场景 特征与所述行为 者的经拼接的特 征之间的相似性; 以及 对于所述多个视频帧中的每个视频帧, 基于所述视频帧的时序场景特征与 所述行为者 的经拼接的特 征之间的相似性, 对所述视频帧的时序场景 特征进行重组更新。 5.如权利要求2所述的方法, 其中, 基于所述视频片段的经特征重组的时序场景特征, 对所述行为 者的全局特 征进行特征增强包括: 基于所述视频片段的经特征重组的时序场景特征, 对所述行为者的全局特征进行场景 特征聚合; 以及 通过对所述行为者的全局特征进行多次场景特征聚合, 生成所述行为者的经特征增强 的全局特 征。 6.如权利要求1所述的方法, 其中, 基于所述行为者的经特征增强的全局特征、 以及根 据所述视频片段的时序场景特征所确定的特定于所述行为者的全局 场景特征, 确定所述行 为者的动作包括:权 利 要 求 书 1/3 页 2 CN 115116129 A 2对所述视频片段的时序场景特征进行时间平均, 以确定所述视频片段的时序平均场景 特征; 基于所述行为者的局部特征和全局特征, 从所述视频片段的时序平均场景特征中筛选 出与所述行为者相关联的时序 平均场景特征, 并利用筛选出的时序平均场景特征对所述视 频片段的时序平均场景 特征进行重组更新; 以及 通过对所述视频片段的时序平均场景特征进行多次筛选与重组更新, 获得所述视频片 段的经特征重组的时序平均场景 特征, 作为特定 于所述行为 者的全局场景 特征。 7.如权利要求6所述的方法, 其中, 基于所述行为者的经特征增强的全局特征、 以及根 据所述视频片段的时序场景特征所确定的特定于所述行为者的全局 场景特征, 确定所述行 为者的动作还 包括: 对所述行为者的经特征增强的全局特征和所述全局场景特征进行特征融合, 以生成所 述行为者的经融合的行为 者特征; 通过将所述行为者的经融合的行为者特征与其他行为者的行为者特征进行关系建模, 获得所述行为 者的交互行为者特征; 以及 基于所述行为 者的交互行为者特征, 通过动作分类确定所述行为 者的动作; 其中, 所述 其他行为者包括以下中的一个或多个: 所述视频片段中的其 他行为者; 和 其他视频片段中的一个或多个行为 者。 8.如权利要求7所述的方法, 其中, 所述确定所述行为者的动作包括确定所述行为者的 动作标签, 所述动作标签包括用于指示所述行为者与一个或多个其他行为者之 间的交互的 动作标签和用于指示所述行为 者的单独动作的动作标签中的至少一种。 9.如权利要求1所述的方法, 其中, 确定所述视频片段中的行为 者包括: 在所述视频片段的关键帧中对行为者进行定位, 以确定所述行为者, 并确定所述行为 者所对应的候选 框, 所述候选框用于指示所述行为 者在所述关键帧中的位置; 其中, 所述方法还 包括: 输出所述行为 者的动作以及所述关键帧中的所述行为 者所对应的候选 框。 10.一种视频动作检测装置, 包括: 数据获取模块, 被 配置为获取视频片段, 并确定所述视频片段中的行为 者; 特征重组模块, 被配置为基于所述行为者的局部特征和全局特征, 对所述视频片段的 时序场景 特征进行特征重组; 特征增强模块, 被配置为基于所述视频片段的经特征重组的时序场景特征, 对所述行 为者的全局特 征进行特征增强; 以及 动作确定模块, 被配置为基于所述行为者的经特征增强的全局特征、 以及根据所述视 频片段的时序场景特征所确定的特定于所述行为者的全局 场景特征, 确定所述行为者的动 作。 11.如权利要求10所述的装置, 其中, 所述装置还 包括特征提取模块, 被 配置为: 从所述视频片段中提取所述视频片段的时空特征图, 所述 时空特征图用于指示所述视 频片段的时间特 征与空间特 征; 基于所述视频片段的时空特 征图以及所确定的行为 者, 确定所述行为 者的局部特 征;权 利 要 求 书 2/3 页 3 CN 115116129 A 3

PDF文档 专利 视频动作检测方法、装置、设备和存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频动作检测方法、装置、设备和存储介质 第 1 页 专利 视频动作检测方法、装置、设备和存储介质 第 2 页 专利 视频动作检测方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。