全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210543662.8 (22)申请日 2022.05.18 (71)申请人 深延科技 (北京) 有限公司 地址 100081 北京市海淀区中关村大街27 号15层15 08 (72)发明人 陈海波 罗志鹏  (74)专利代理 机构 苏州领跃知识产权代理有限 公司 32370 专利代理师 张帆 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/28(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 视频实例分割方法及相关装置 (57)摘要 本申请提供了一种视频实例分割方法及相 关装置, 所述方法包括: 获取目标视频, 所述目标 视频是利用视频采集设备采集预设区域的多个 目标得到的; 获取所述目标视频的每帧图像的多 个检测框, 其中每个目标对应一个或多个检测 框; 利用每帧图像的多个检测框, 获取每帧图像 对应的多个子图, 其中每个目标对应一个子图; 利用实例分割模型对每帧图像对应的每个子图 中的目标进行分割, 以获取每帧图像对应的每个 目标的分割结果。 在分割每个目标时可以只针对 单个目标对应的部分图像(即子图)进行分割, 相 比于从整个图像中对每个目标进行分割, 能够降 低运算量, 提高视频实例分割效率; 可 以在复杂 场景下快速定位和分割视频中的每 个目标。 权利要求书2页 说明书18页 附图6页 CN 114898268 A 2022.08.12 CN 114898268 A 1.一种视频实例分割方法, 其特 征在于, 所述方法包括: 获取目标视频, 所述目标视频 是利用视频采集设备采集预设区域的多个目标 得到的; 获取所述目标视频的每帧图像的多个 检测框, 其中每 个目标对应一个或多个 检测框; 利用每帧图像的多个检测框, 获取每帧图像对应的多个子 图, 其中每个目标对应一个 子图; 利用实例分割 模型对每帧图像对应的每个子图中的目标进行分割, 以获取每帧图像对 应的每个目标的分割结果。 2.根据权利要求1所述的视频实例分割方法, 其特征在于, 所述获取所述目标视频的每 帧图像的多个 检测框, 包括: 采用帧差法获取每帧图像的多个目标图像; 基于每帧图像的多个目标图像, 获取每帧图像的多个 检测框。 3.根据权利要求2所述的视频实例分割方法, 其特征在于, 所述基于每帧图像的多个目 标图像, 获取每帧图像的多个 检测框, 包括: 利用每帧图像的边缘模板对目标图像进行更新, 以去除目标图像的轮廓的空洞和重 影; 基于更新后的每帧图像的多个目标图像, 获取每帧图像的多个 检测框。 4.根据权利要求3所述的视频实例分割方法, 其特征在于, 每帧图像的边缘模板的获取 过程包括: 对每帧图像的原图像进行边 缘检测, 以获取每帧图像的边 缘信息; 对每帧图像的边 缘信息进行二 值化, 以获取每帧图像的边 缘模板。 5.根据权利要求1所述的视频实例分割方法, 其特征在于, 所述实例分割模型采用HTC 模型。 6.根据权利要求5所述的视频实例分割方法, 其特征在于, 在所述HTC模型的训练过程 中, 使用Copy ‑Paste和Mixup融合的数据增强方式对训练集进行 数据增强。 7.根据权利要求1所述的视频实例分割方法, 其特 征在于, 所述方法还 包括: 利用所述目标视频的第一帧图像的多个检测框, 初始化多个轨迹, 其中每个目标分别 对应一个轨 迹; 针对所述目标视频的第一帧图像以外的每帧图像, 利用每帧图像的多个检测框, 对所 述多个轨 迹进行更新, 以获取每 个目标的最终轨 迹; 其中, 所述多个轨 迹的更新过程包括: 对每帧图像对应的多个子 图进行标签嵌入处理, 以获取每帧图像对应的标签信息, 所 述每帧图像对应的标签信息包括每帧图像的多个 检测框对应的嵌入特 征信息; 利用所述第k帧图像对应的标签信息和所述第k ‑1帧图像对应的标签信息, 将所述第k 帧图像的至少一个检测框分别和所述多个轨迹中的一个轨迹进行关联, 以更新至少一个检 测框所关联的轨 迹, 1<k≤N, N是 所述目标视频的帧数, N是 大于1的整数。 8.根据权利要求7所述的视频实例分割方法, 其特征在于, 所述利用所述第k帧图像对 应的标签信息和所述第k ‑1帧图像对应的标签信息, 将所述第k帧图像的至少一个检测框 分 别和所述多个轨 迹中的一个轨 迹进行关联, 包括: 分别以所述第k帧图像的每个检测框作为目标检测框, 逐一计算所述目标检测框对应权 利 要 求 书 1/2 页 2 CN 114898268 A 2的嵌入特 征信息与所述第k ‑1帧图像的每 个检测框对应的嵌入特 征信息之间的表面距离; 当所述第 k‑1帧图像的多个检测框 中有且只有一个关联检测框对应的嵌入特征信 息与 所述目标检测框对应的嵌入特征信息之 间的表面距离不大于预设距离时, 将所述目标检测 框和所述关联检测框所对应的目标的轨 迹进行关联。 9.根据权利要求8所述的视频实例分割方法, 其特征在于, 所述多个轨迹的更新过程还 包括: 当所述第 k‑1帧图像的多个检测框 中任一检测框对应的嵌入特征信 息与所述目标检测 框对应的嵌入特征信息之 间的表面距离均大于所述预设距离时, 逐一计算所述目标检测框 与每个轨迹在所述第k帧图像的预测检测框之间的IOU; 当多个轨迹在所述第 k帧图像的预测检测框 中有且只有一个关联预测检测框与所述目 标检测框之间的IOU不大于预设阈值时, 将所述 目标检测框和所述关联预测 检测框所对应 的目标的轨 迹进行关联。 10.根据权利要求7所述的视频实例分割方法, 其特征在于, 所述对每帧图像对应的多 个子图进行 标签嵌入处 理, 以获取每帧图像对应的标签信息, 包括: 利用MGN模型对每帧图像对应的多个子图进行标签嵌入处理, 以获取每帧图像对应的 标签信息; 其中, 所述MGN模型 是利用训练集对预设的Resnet5 0‑ibn‑a网络进行训练得到的。 11.根据权利要求10所述的视频实例分割方法, 其特征在于, 所述预设的Resnet50 ‑ ibn‑a网络用于对待处 理的图像进行 特征提取, 得到全局特 征和局部特征; 在所述MGN模型 的训练过程中, 使用Triplet  loss和Softmax  loss计算提取得到的全 局特征的损失, 使用Softmax  loss计算提取得到的局部特 征的损失。 12.一种视频实例分割装置, 其特 征在于, 所述装置包括: 视频获取模块, 用于获取目标视频, 所述目标视频是利用视频采集设备采集预设区域 的多个目标 得到的; 检测框获取模块, 用于获取所述目标视频的每帧图像的多个检测框, 其中每个目标对 应一个或多个 检测框; 子图获取模块, 用于利用每帧图像的多个检测框, 获取每帧图像对应的多个子图, 其中 每个目标对应一个子图; 目标分割模块, 用于利用实例分割模型对每帧图像对应的每个子图中的目标进行分 割, 以获取每帧图像对应的每 个目标的分割结果。 13.一种电子设备, 其特征在于, 所述电子设备包括存储器和 处理器, 所述存储器存储 有计算机程序, 所述处理器执行所述计算机程序时实现权利要求 1‑11任一项 所述视频实例 分割方法的步骤。 14.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处理器执行时实现权利要求 1‑11任一项 所述视频实例分割方法的步 骤。权 利 要 求 书 2/2 页 3 CN 114898268 A 3

PDF文档 专利 视频实例分割方法及相关装置

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频实例分割方法及相关装置 第 1 页 专利 视频实例分割方法及相关装置 第 2 页 专利 视频实例分割方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。