全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210289901.1 (22)申请日 2022.03.23 (65)同一申请的已公布的文献号 申请公布号 CN 114387567 A (43)申请公布日 2022.04.22 (73)专利权人 长视科技股份有限公司 地址 510000 广东省广州市黄埔区云埔工 业区开创大道728号自编2栋 (72)发明人 全绍军 林格 陈小燕 梁少玲  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 专利代理师 李艳丽 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 7/18(2006.01) (56)对比文件 CN 111275085 A,2020.0 6.12 CN 113837259 A,2021.12.24 US 2018189572 A1,2018.07.0 5 CN 114020891 A,202 2.02.08 CN 113343922 A,2021.09.0 3 审查员 郑明月 (54)发明名称 一种视频数据的处理方法、 装置、 电子设备 及存储介质 (57)摘要 本申请适用于多媒体技术领域, 提供了一种 视频数据的处理方法、 装置、 电子设备及存储介 质, 方法包括: 响应于目标视频的类型识别指令, 将所述目标视频导入到多模态特征提取模型, 输 出所述目标视频内各个视频图像帧对应的多个 不同模态的模态特征; 基于预设的所述不同模态 间的互引导 关系, 分别生 成各个所述模态特征对 应的融合特征; 根据所有视频图像帧在各个所述 模态的所述融合特征, 构建所述目标视频对应的 模态对象图, 并通过所述模态对象图确定所述目 标视频对应的注意力特征; 所述注 意力特征融合 了多个所述模态的融合特征; 基于所述注意力特 征, 确定所述目标视频的视频类别。 采用上述方 法中, 提高了视频监控的准确性, 也降低了视频 监控的人力成本 。 权利要求书4页 说明书18页 附图8页 CN 114387567 B 2022.06.28 CN 114387567 B 1.一种视频 数据的处 理方法, 其特 征在于, 包括: 响应于目标视频的类型识别指令, 将所述目标视频导入到多模态特征提取模型, 输出 所述目标视频内各个视频图像帧对应的多个不同模态的模态特 征; 基于预设的所述不同模态间的互引导关系, 分别生成各个所述模态特征对应的融合特 征; 根据所有所述视频图像帧在各个所述模态的所述融合特征, 构建所述目标视频对应的 模态对象图, 并通过所述模态对 象图确定所述 目标视频对应的注意力特征; 所述注意力特 征融合了多个所述模态的融合特征; 所述模态对 象图内包含有多个节点, 每个节点对应一 个视频图像帧; 所述模态对象图是根据融合特征确定不同视频图像帧之间关联关系建立得 到的; 基于所述注意力特 征, 确定所述目标视频的视频类别; 所述根据 所有所述视频图像帧在各个所述模态的所述融合特征, 构建所述目标视频对 应的模态对象图, 并通过 所述模态对象图确定所述目标视频对应的注意力特 征, 包括: 根据各个所述视频图像帧, 构建全连接无向图, 并确定所述全连接无向图对应的初始 邻接矩阵; 根据各个所述视频图像帧的序号以及所述初始邻 接矩阵, 对各个所述视频图像帧在各 个所述模态的所述融合特征进行迭代, 得到各个所述视频图像 帧对应的一阶注意力特征; 所述一阶注意力特 征为具体为: 其中, 为所述一阶注意力特征; 为所述初始邻接矩阵; 为第i个视频 图像帧的 所述融合特 征; 为预设一阶学习矩阵; N 为所述视频图像帧的总数; 基于所有所述一阶注意力特征, 构建一阶全连接 图, 并确定所述一阶全连接 图对应的 一阶邻接矩阵; 根据各个所述视频图像帧的序号以及所述一阶邻 接矩阵, 对各个所述视频图像帧的所 述一阶注意力特 征进行迭代, 得到各个所述视频图像帧对应的二阶注意力特 征; 基于所有所述二阶注意力特征, 构建二阶全连接 图, 并通过一维卷积层以及最大池化 层对所述 二阶全连接图进行降维处 理, 确定各个所述视频图像帧的降维特 征; 通过前后长短期网络对所有所述视频图像帧的所述降维特征进行迭代, 得到所述目标 视频的所述注意力特 征。 2.根据权利要求1所述的处理方法, 其特征在于, 所述模态特征包括: 静态特征、 动态特 征以及文本特 征; 所述基于预设的所述不同模态间的互引导关系, 分别生成各个所述模态特征对应的融 合特征, 包括: 根据各个所述视频图像帧的帧次序, 基于所述静态特征对各个所述视频图像帧的所述 动态特征进行注意力计算, 得到第一融合特 征; 根据各个所述视频图像帧的帧次序, 基于所述文本特征对各个所述视频图像帧的所述 静态特征进行注意力计算, 得到第二融合特 征;权 利 要 求 书 1/4 页 2 CN 114387567 B 2根据各个所述视频图像帧的帧次序, 基于所述动态特征对各个所述视频图像帧的所述 静态特征进行注意力计算, 得到第三融合特 征。 3.根据权利要求2所述的处理方法, 其特征在于, 所述根据 各个所述视频图像帧的帧次 序, 基于所述静态特征对各个所述视频图像 帧的所述动态特征进行注意力计算, 得到第一 融合特征, 包括: 将第i个视频图像帧的所述动态特征以及所述静态特征导入到预设的注意力引导模 型, 分别确定动态 注意力特 征以及静态 注意力特 征; 所述注意力引导模型 具体为: 其中, 为第j个视频图像帧的动态注意力特征; 为第i个视频图像帧的静态注意 力特征; 为第j个视频图像帧的静态特征; 为第i个视频图像帧的动态特征; 为注意力权 重; 基于所述视频图像帧的帧次序, 对所述动态注意力特征以及所述静态注意力特征进行 迭代, 得到第一注意力权 重以及第二注意力权 重; 其中, 所述第一注意力权 重具体为: 其中, 为第i个视频图像帧的所述第一注意力权重; softmax为进行正则化的激活函 数; 对所述第一注意力 权重以及所述第 二注意力 权重进行降维处理, 得到所述第 一融合特 征; 所述第一融合特 征具体为: 其中, 为所述第i个视频图像帧 的所述第一融合特征; 为第j个视 频图像帧的所述 第二注意力权 重。 4.根据权利要求1所述的处理方法, 其特征在于, 所述基于所有所述一阶注意力特征, 构建一阶全连接图, 并确定所述 一阶全连接图对应的一阶邻接矩阵, 包括: 根据所述一阶全连接图确定各个所述视频图像帧对应节点之间的关联关系, 确定所述 一阶全连接图的权值矩阵; 所述权值矩阵是根据所述节点之间的入向量以及出向量确定 的; 根据所述权值矩阵以及所有所述视频图像帧的所述一阶注意力特征, 确定所述视频图 像帧对应的互相关系数; 所述互相关系数 具体为: 权 利 要 求 书 2/4 页 3 CN 114387567 B 3

PDF文档 专利 一种视频数据的处理方法、装置、电子设备及存储介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频数据的处理方法、装置、电子设备及存储介质 第 1 页 专利 一种视频数据的处理方法、装置、电子设备及存储介质 第 2 页 专利 一种视频数据的处理方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。