全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211506873.0 (22)申请日 2022.11.29 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 王国梁 陈娜华 彭大蒙 韩致远  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 吴琰 (51)Int.Cl. G06T 7/50(2017.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/52(2022.01)H04N 19/30(2014.01) H04N 19/59(2014.01) (54)发明名称 一种画面深度判断模 型及其构建方法、 装置 及应用 (57)摘要 本申请提出了一种画面深度判 断模型及其 构建方法、 装置及应用, 包括以下步骤: 获取训练 样本, 使用所述训练样本对所述画面深度判断模 型进行训练; 使用所述编码系统对 所述训练样本 特征提取后进行编码得到编码特征图, 将所述编 码特征图输入到所述融合系统中进行融合, 得到 解码特征图; 将所述解码特征图发送到所述深度 预测系统中, 所述深度预测系统对每一层级的深 度进行预测, 得到预测结果。 本方案发明一种深 度预测模块, 可以对解码特征图中的每一层级进 行深度预测, 且不会丢失局部信息 。 权利要求书2页 说明书10页 附图7页 CN 115546274 A 2022.12.30 CN 115546274 A 1.一种画面深度判断模型的构建方法, 其特 征在于, 包括: 获取标记有待测目标及目标深度的至少一待检测图片作为训练样本, 使用所述训练样 本对画面深度判断模型进行训练; 所述画面深度判断模型由编码系统、 融合系统、 深度预测系统串联组成, 每一所述训练 样本被特征提取后经历所述编码系统的多个编码器模块的编码后得到多个不同分辨率的 编码特征图, 编码特征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合 后获取解码特 征图; 所述深度 预测系统包括并行的分层像素概率预测分支和分层宽度 预测分支, 所述解码 特征图输入所述分层宽度预测分支中 自适应的得到 分层并得到每一分层的分层宽度, 所述 解码特征图输入所述分层像素概率预测分支中进行卷积运算和 函数激活后得到分层概率 分布, 基于所述分层概 率分布和每一分层的分层宽度得到每一层的画面深度。 2.根据权利要求1所述的一种画面深度判断模型的构建方法, 其特征在于, 所述编码系 统包括多个依 次串联的编码器模块, 每一编码器模块包括多层自注意力 ‑多层感知器层组 成的自注意力机制, 所述自注意力机制用于自适应生成分层的编码特 征图。 3.根据权利要求1所述的一种画面深度判断模型的构建方法, 其特征在于, 每一编码器 模块中依次包含卷积层、 编 码层、 融合层, 所述卷积层 对输入的训练样本进行卷积操作得到 卷积特征; 所述编码层 包含并联的多个自注意力 ‑多层感知器层, 所述卷积特征经过所述编 码层再经过所述融合层得到编码特 征图。 4.根据权利要求1所述的一种画面深度判断模型的构建方法, 其特征在于, 在 “编码特 征图自低分辨率至高分辨率的次序在所述融合系统中迭代上采样融合后获取解码特征图 ” 步骤中, 所述融合系统包括多个串联的融合模块, 输入到所述融合模块的编码特征图和上 一层级分辨率的编 码特征图在所述融合模块中融合后得到融合特征图, 所述融合特征图输 入到下一融合模块中直到遍历所有的编 码特征图得到最 终融合特征图, 所述最终融合特征 图经历上采样和卷积后得到解码特 征图。 5.根据权利要求4所述的一种画面深度判断模型的构建方法, 其特征在于, 每一所述融 合模块中依次包括上采样层、 拼接层、 融合卷积层, 所述上采样层 对最高层级的编码特征图 进行上采样操作后与下一层级分辨率的编码特征图在拼接层进行拼接, 得到拼接结果, 所 述融合卷积层对所述 拼接结果进行 卷积后输出, 得到该融合模块对应的融合特 征图。 6.根据权利要求1所述的一种画面深度判断模型的构建方法, 其特征在于, 所述分层像 素概率预测分支由一个概率卷积网络连接一个softmax层组成, 所述概率卷积网络对所述 解码特征图进行卷积操作后送入所述softmax层进行概率预测, 得到所述解码特征图中不 同像素点的分层概率分布; 所述分层宽度预测模块由一个宽度卷积网络和一个 Transformer层 组成, 所述解码特征图经过宽度卷积 网络对所述解码特征图进行自适应分 层, 再通过 所述Transformer层得到每一分层的分层宽度。 7.根据权利要求6所述的一种画面深度判断模型的构建方法, 其特征在于, 在 “基于所 述分层概率分布和每一分层的分层宽度得到每一层的画面深度 ”步骤中, 根据所述分层宽 度得出每一层级的中心点, 对所述中心点进行上采样, 再使用插值预测的方法对上采样结 果进行深度预测, 得出每一层级的中心点深度, 使用每一层级的中心点深度与对应层级的 像素点概率分布进行线性组合得到每一层级深度, 所述每一层级深度即为所述预测结果。权 利 要 求 书 1/2 页 2 CN 115546274 A 28.一种画面深度判断模型, 其特征在于, 使用权利要求1 ‑7任意一种方法进行构建得 到。 9.一种画面深度判断方法, 主 要用于城管事 件的判断, 包括: 获取一待检测图片, 将所述待检测图片输入到所述画面深度判断模型中, 所述画面深 度判断模 型由编码系统、 融合系统、 深度预测系统串 联组成, 所述深度预测系统包括并行的 分层像素概率预测分支和分层宽度预测分支, 所述待检测图片进 行特征提取后在所述编码 系统中编码, 得到多个不同分辨率的编码特征图, 编码特征图自低分辨率至高分辨率的次 序在融合系统中迭代上采样融合后获取解码特 征图; 所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的 分层宽度, 所述解码特征图输入所述分层像素概率预测分支中进 行卷积运算和函数激活后 得到分层概率分布, 基于的所述分层概率分布和每一分层的分层宽度得到所述待检测图片 中每一层的画面深度。 10.一种画面深度判断模型构建装置, 其特 征在于, 包括: 获取模块: 获取标记有待测目标及目标深度的至少一待检测图片作为训练样本, 使用 所述训练样本对画面深度判断模型进行训练; 编码‑融合模块: 所述画面深度判断模型由编码系统、 融合系统、 深度预测系统串联组 成, 每一所述训练样本被特征提取后经历所述编码系统的多个编 码器模块的编 码后得到多 个不同分辨率的编 码特征图, 编码特征图自低分辨率至高分辨率的次序在所述融合系统中 迭代上采样融合后获取解码特 征图; 预测模块: 所述深度预测系统包括并行的分层像素概率预测分支和分层宽度预测分 支, 所述解码特征图输入所述分层宽度预测分支中自适应的得到分层并得到每一分层的分 层宽度, 所述解码特征图输入所述分层像素概率预测分支中进行卷积运算和函数激活后得 到分层概 率分布, 基于所述分层概 率分布和每一分层的分层宽度得到每一层的画面深度。 11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的一种画 面深 度判断模型的构建方法或权利要求9所述的一种画面深度判断方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1到7任一 所述的一种画面深度判断模型的构建方法或权利要求9所述的一种画面深度判断方法。权 利 要 求 书 2/2 页 3 CN 115546274 A 3

.PDF文档 专利 一种画面深度判断模型及其构建方法、装置及应用

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种画面深度判断模型及其构建方法、装置及应用 第 1 页 专利 一种画面深度判断模型及其构建方法、装置及应用 第 2 页 专利 一种画面深度判断模型及其构建方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:35:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。