全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210193688.4 (22)申请日 2022.03.01 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 沈蓉豪 戴国骏 周文晖 项雷雷  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06T 7/194(2017.01) G06T 7/11(2017.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06V 10/82(2022.01)G06V 10/44(2022.01) G06V 10/25(2022.01) (54)发明名称 一种基于掩膜传播网络的交互式视频抠图 系统 (57)摘要 本发明公开了一种基于掩膜传播网络以及 特征融合的交互式视频抠图系统, 包括缓存模 块、 交互式图像粗分割模块、 掩膜时域传播模块、 基于时空特征融合的细分割模块。 相较于现有视 频抠图方法, 本发明系统只需对视频任意一帧的 前景目标进行点击或者涂鸦便可实现对整个视 频前景目标的抠图, 无需对每一帧提供三分图, 大大减少用户的工作量, 并且达到先进抠图算法 效果, 此外通过时空特征融合模块, 有效解决视 频帧之间的时空一致性问题, 对移动的物体细 节 可能产生伪迹和闪烁现象起到有效抑制。 权利要求书4页 说明书8页 附图3页 CN 114549574 A 2022.05.27 CN 114549574 A 1.一种基于掩膜传播网络的交互式视频抠图系统, 其特征在于, 包括缓存模块、 交互式 图像粗分割模块、 掩膜时域传播模块、 基于时空特 征融合的细分割模块; 所述的缓存模块用于将视频按视频帧的方式进行缓存, 从而获取每一帧的原始输入图 像; 同时用于缓存 掩膜时域传播模块标记的记 忆帧; 所述的交互式目标粗分割模块用于对输入图像进行交互, 所述的交互包括点击、 涂鸦 两种交互方式, 用户根据实际情况选择任意交互方式, 通过单次点击或涂鸦获得原始输入 图像的前景目标信息即指示图, 将其结合原始输入图像输入至图像分割网络, 获得初步的 掩膜; 用户可以通过重复点击或涂鸦来优化掩膜, 直到获得足够准确的掩膜后, 再送入掩膜 时域传播模块; 所述的掩膜时域传播模块包括一个基于注意力 机制的时空记忆帧读取器; 所述的基于 注意力机制的时空记 忆帧读取器包括了记 忆编码器、 查询编码器、 掩膜解码器; 掩膜时域传播模块在获得单帧原始图像所对应的掩膜后, 将 从正反两个时域方向上进 行掩膜传播; 其原理是根据当前缓存模块中已有的记忆帧来预测 查询帧的掩膜, 然后将预 测到掩膜的查询帧标记为记忆帧并存入缓存模块中, 并取视频的下一帧作为新的查询帧, 重复上述操作, 直到下一帧为记忆帧或者是视频帧的最后一帧时停止传播, 意味着所有帧 的掩膜均已获得; 所述的基于时空特征融合的细分割模块, 包括细分割编码器、 细分割解码器、 ASPP空洞 卷积池化金字塔、 时空特 征融合模块、 逐步细化模块; 基于时空特征融合的细分割模块根据掩膜时域传播模块输出的所有视频帧掩膜以及 视频帧原始图像来预测精确的透明度遮罩, 并且利用帧与帧之 间的时空信息来消除视频抠 图中可能出现的伪影和闪烁现象。 2.根据权利要求1所述的一种基于掩膜传播网络的交互式视频抠图系统, 其特征在于, 具体的传播方式是将当前交互帧作为记忆帧, 相邻帧作为查询帧, 通过记忆帧和查询帧的 键特征图进行匹配, 再将记忆帧的值特征图乘上键特征匹配所生成的权重, 最后连接上查 询帧的值特 征图一并送入 掩膜解码器进行解码, 最终预测出 该查询帧的掩膜。 3.根据权利要求2所述的一种基于掩膜传播网络的交互式视频抠图系统, 其特征在于, 所述的基于时空特征融合的细 分割模块对视频中的每一帧原始图像Fi执行以下操作: 将Fi 和相邻两帧原始图像Fi‑1、 Fi+1以及对应的掩膜Mi Mi‑1、 Mi+1分别组成三组四通道的输入数 据, 传入到细分割编码器中进行多层次的特征提取, 细分割编码器最底层的编码特征输入 到ASPP空洞卷积池化金字塔中进 行多尺度的特征提取与融合, 然后 将特征输出到细分割解 码器的底层进行逐层向上解码; 同时细分割编码器中的每一层均会输出提取到的特征图, 每一层次的特征图通过跳跃连接输出到对应层级的时空特征融合模块进行特征对齐与融 合, 时空特征融合模块将对齐融合后特征图通过跳跃连接输出到细分割解码器的对应层 级, 并与细分割解码器上一层级解码的特征图相加进行当前层级的解码; 所述的细分割解 码器上一层级解码的特征是指ASPP空洞卷积池化金字塔输出到细分割解码器底层然后逐 层向上解码获得的特征; 此外, 在细分割解码器的第二、 三、 五层的输出部分分别连接了逐 步细化模块, 这样在细分割解码器向上解码的过程中会逐步细化的抠图结果, 最终得到准 确的透明度遮罩。权 利 要 求 书 1/4 页 2 CN 114549574 A 24.根据权利要求1或2或3所述的一种基于掩膜传播网络的交互式视频抠图系统, 其特 征在于, 所述的交互式目标粗分割模块的图像分割网络采用DeeplabV3+网络作为 backbone, 该网络接受六通道输入, 其中三通道是RGB图像、 单通道是掩膜、 两个通道是正负 涂鸦图, 其中掩膜有两种情况, 初始交互 时掩膜为空, 对已经生成的前景目标掩膜进 行调整 时, 掩膜为包 含错误区域的单通道图。 5.根据权利要求4所述的一种基于掩膜传播网络的交互式视频抠图系统, 其特征在于, 所述的记忆编码器以及查询编码器, 这两个编码器网络的均采用ResNet50作为骨干网络, 并且将ResNet50的stage ‑4的特征图作为一个计算键值特征图的基本特征图; 针对输入部 分, 记忆编码 器在第一个卷积层中增加了额外的输入通道, 其输入是图像和掩膜, 而查询编 码器输入只有图像; 记忆编码器以及查询编码器的末端均添加了两个卷积层, 分别生成键 图和值图, 用于 计算查询帧和记忆帧之间的关键特征的相似性, 键图和值图分别由 和 表示, 其中HW分别代 表原图尺寸, Ck和Cv分别设置为128和512; 对于每个记忆帧T, 时空记忆帧读取器通过卷积操作计算其键值特征图, 并且将输出串 接为记忆键图KM和记忆值图VM, 而查询键图KQ和记忆键图KM通过点积进行匹配, 公式如下: F=(KM)TKQ    (2) 其中的实体F∈RTHW*HW代表了查询点和记 忆点的亲和力; 进行时空记忆读取操作, 首先测量查询键图和记忆键图之间所有像素的相似度来计算 VM的权重, 将VM和权重相乘后再与VQ相加一并输入到掩膜解码器; 掩膜解码器获取时空记忆读取操作的输出后, 对查询帧的目标掩膜进行重建; 使用 Facebook提出的掩膜细化网络作为构建模块, 利用一个卷积层和一个残差块将时空记忆读 取操作的输出压缩到256通道, 然后通过三个掩膜细化模块逐渐放大压缩的读操作输出, 一 次放大两倍, 并且每个阶段的掩膜细化模块都与查询编码器通过跳跃连接相连, 获取前一 阶段的输出和特征图; 将最后一个掩膜细化模块的输出传入卷积层用来重构对 象掩膜, 解 码器的每个卷积层都使用了3 ×3卷积滤波器, 产生256个通道输出, 最后一个卷积层输出原 图像1/4比例的预测掩膜。 6.根据权利要求5所述的一种基于掩膜传播网络的交互式视频抠图系统, 其特征在于, 所述的细分割编码器和解码器网络使用了一个自定义的U ‑Net结构, 在细分割编码器的输 入部分, 是RGB图像加上引导图组成一个四通道的特征输入S0∈R4*512*512, 通道数为4, 尺寸 则根据的输入大小设置为512*512; 输入特征经过两层卷积得到两倍的下采样特征图S1∈ R32*256*256, 每层卷积后 都经过了谱归一化操作和批归一化处理, 这样做的目的是为了给网 络添加Lipschitz常数约束, 使得训练更稳定; 之后依次经过第二层的卷积和第一残差块 Res1得到特征S2∈R64*128*128, 然后经过第三层的第二残差块Res2得到特征S3∈R128*64*64, 再 经过第四层的第三残差块Res3和第五层的第四残差块 Res4, 分别得到16倍下采样特征图S4 ∈R256*32*32和32倍下采样图S5∈R512*16*16; 在细分割解码器部分, 每一层解码的特征图都会和对应层的时空特征融合模块输出的 特征相结合, 再向上采样并解码; 此外在第二层, 第三层, 第五层都会通过卷积预测不同尺 度的透明度遮罩; 这些预测的透明度遮罩和下一层的预测 一起作为逐步细化模块的输入, 进而推导下一层次的透明度遮罩。权 利 要 求 书 2/4 页 3 CN 114549574 A 3

PDF文档 专利 一种基于掩膜传播网络的交互式视频抠图系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于掩膜传播网络的交互式视频抠图系统 第 1 页 专利 一种基于掩膜传播网络的交互式视频抠图系统 第 2 页 专利 一种基于掩膜传播网络的交互式视频抠图系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。