全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210323890.4 (22)申请日 2022.03.29 (66)本国优先权数据 202111415989.9 2021.1 1.25 CN (71)申请人 北京旷视科技有限公司 地址 100096 北京市海淀区西三 旗建材城 内建中路12幢一层1268号 申请人 北京迈格威科技有限公司 (72)发明人 张浩天 王远江 刘骁 袁文涛  丁宜康 朱擎天 刘襄阅  (74)专利代理 机构 北京磐华捷成知识产权代理 有限公司 1 1851 专利代理师 卜璐璐 (51)Int.Cl. G06T 7/55(2017.01)G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 深度估计方法和深度估计装置 (57)摘要 一种深度估计方法和深度估计装置, 该方法 包括: 获取参考图像和源图像, 其中所述参考图 像和所述源图像是针对同一场景或者同一对象 采集的不同视角的图像; 对所述参考图像和源图 像分别进行特征提取, 得到所述参考图像和所述 源图像各自的局部特征; 对所述参考图像和所述 源图像各自的局部特征进行信息交互处理, 得到 所述参考图像和所述源图像各自的全局特征; 获 取所述参考图像和所述源图像各自的外参, 基于 所述参考图像和所述源图像各自的全局特征和 各自的外参, 得到所述参考图像的深度图。 该深 度估计方法和装置能够利用内部注意力和外部 注意力来聚合图像内和图像间的上下文信息, 使 得该深度估计方法能够提高深度估计的精度。 权利要求书3页 说明书12页 附图3页 CN 114913215 A 2022.08.16 CN 114913215 A 1.一种深度估计方法, 其特 征在于, 所述方法包括: 获取参考图像和源图像, 其中所述参考图像和所述源图像是针对同一场景或者同一对 象采集的不同视角的图像; 对所述参考图像和源图像分别进行特征提取, 得到所述参考图像和所述源图像各自的 局部特征; 对所述参考图像和所述源图像各自的局部特征进行信 息交互处理, 得到所述参考图像 和所述源图像各自的全局特 征; 获取所述参考图像和所述源图像各自的外参, 基于所述参考图像和所述源图像各自的 全局特征和各自的外参, 得到所述 参考图像的深度图。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述参考图像和所述源图像各自的 局部特征进行信息交 互处理, 得到所述 参考图像和所述源图像各自的全局特 征, 包括: 对所述参考图像和所述源图像各自的局部特征进行全局信 息交互处理, 得到所述参考 图像和所述源图像各自的全局特 征; 或者 对所述参考图像和所述源图像各自的局部特征进行半全局信 息交互处理, 得到所述参 考图像和所述源图像各自的半全局特征, 并对 所述参考图像和所述源图像各自的半全局特 征进行全局信息交 互处理, 得到所述 参考图像和所述源图像各自的全局特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述全局信 息交互处理是由特征匹配变形 模块执行的, 所述特征匹配变形模块包括用于进 行图像内信息交互处理的自注意力模块和 用于进行图像间信息交 互处理的交叉注意力模块; 所述对所述参考图像和所述源图像各自的局部特征进行全局信 息交互处理, 得到所述 参考图像和所述源图像各自的全局特 征, 包括: 将所述参考图像的局部特征输入到所述自注意力模块, 得到所述参考图像的全局特 征; 将所述源图像的局部特征输入到所述自注意力模块, 得到的结果作为所述交叉注意力 模块的第一输入; 将所述自注意力模块针对所述参考图像的局部特征的处理结果作为所述交叉注意力 模块的第二输入, 所述交叉注意力模块的输出为所述源图像的全局特 征。 4.根据权利要求3所述的方法, 其特征在于, 所述特征匹配变形模块包括多个级联模 块, 每个所述级联模块包括所述自注意力模块和所述交叉注意力模块; 所述参考图像的全局特征是通过如下方式得到的: 将所述参考图像的局部特征输入到 所述多个级联模块中的第一个级联模块中的自注意力模块, 得到所述参考图像的局部特征 的第一级处理结果; 将所述第一级处理结果输入到所述多个级联模块中的第二个级联模块 中的自注意力模块, 得到所述参考图像的局部特征的第二级处理结果; 以此类推, 直到所述 多个级联模块中的最后一个级联模块中的自注意力模块输出 所述参考图像的全局特 征; 所述源图像的全局特征是通过如下方式得到的: 将所述源图像的局部特征输入到所述 第一个级联模块中的自注意力模块, 得到的结果连同所述参考图像的局部特征的第一级处 理结果一并输入到所述第一个级联模块中的交叉注意力模块, 得到所述源图像的第一级处 理结果; 将所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模块, 得到的结果连同所述参考图像的局部特征的第二级处理结果一并输入到所述第二个级联权 利 要 求 书 1/3 页 2 CN 114913215 A 2模块中的交叉注意力模块, 得到所述源图像的第二级处理结果; 以此类推, 直到所述多个级 联模块中的最后一个级联模块中的交叉注意力模块输出 所述源图像的全局特 征。 5.根据权利要求3或4所述的方法, 其特 征在于, 所述方法还 包括: 将所述参考图像和所述源图像各自的局部特征中的每个像素进行位置编码, 得到经位 置编码后的局部特征输入到所述特征匹配变形模块, 以用于获取所述参考图像和所述源图 像各自的全局特 征。 6.根据权利要求2所述的方法, 其特征在于, 所述半全局信 息交互处理是由适应性感受 野模块执行 的, 所述全局信息交互处理是 由特征匹配变形模块执行 的, 所述适应性感受野 模块包括用于进 行可变形卷积处理的可变形卷积块, 所述特征匹配变形模块包括用于进 行 图像内信息交 互处理的自注意力模块和用于进行图像间信息交 互处理的交叉注意力模块; 所述对所述参考图像和所述源图像各自的局部特征进行半全局信 息交互处理, 得到所 述参考图像和所述源图像各自的半全局特征, 包括: 将所述参考图像和所述源图像各自的 局部特征分别输入到所述可变形卷积块, 得到所述参考图像和所述源图像各自的半全局特 征; 所述对所述参考图像和所述源图像各自的半全局特征进行全局信 息交互处理, 得到所 述参考图像和所述源图像各自的全局特征, 包括: 将所述参考图像的半全局特征输入到所 述自注意力模块, 得到所述参考图像的全局特征; 将所述源图像的半全局特征输入到所述 自注意力模块, 得到的结果所述交叉注意力模块的第一输入; 将所述自注意力模块针对所 述参考图像的半全局特征的处理结果作为所述交叉注意力模块的第二输入, 所述交叉注意 力模块的输出为所述源图像的全局特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述特征匹配变形模块包括多个级联模 块, 每个所述级联模块包括所述自注意力模块和所述交叉注意力模块; 所述参考图像的全局特征是通过如下方式得到的: 将所述参考图像的半全局特征输入 到所述多个级联模块中的第一个级联模块中的自注意力模块, 得到所述参考图像的半全局 特征的第一级处理结果; 将所述第一级处理结果输入到所述多个级联模块中的第二个级联 模块中的自注意力模块, 得到所述参考图像的半全局特征的第二级处理结果; 以此类推, 直 到所述多个级联模块中的最后一个级联模块中的自注意力模块输出所述参考图像的全局 特征; 所述源图像的全局特征是通过如下方式得到的: 将所述源图像的半全局特征输入到所 述第一个级联模块中的自注意力模块, 得到的结果连同所述参考图像的半全局特征的第一 级处理结果一并输入到所述第一个级联模块中的交叉注意力模块, 得到所述源图像的第一 级处理结果; 将所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模 块, 得到的结果连同所述参考图像的半全局特征的第二级处理结果一并输入到所述第二个 级联模块中的交叉注意力模块, 得到所述源图像的第二级处理结果; 以此类推, 直到所述多 个级联模块中的最后一个级联模块中的交叉注意力模块输出 所述源图像的全局特 征。 8.根据权利要求6或7 所述的方法, 其特 征在于, 所述方法还 包括: 将所述参考图像和所述源图像各自的半全局特征中的每个像素进行位置编码, 得到经 位置编码后的半全局特征输入到所述特征匹配变形模块, 以用于获取所述参考图像和所述 源图像各自的全局特 征。权 利 要 求 书 2/3 页 3 CN 114913215 A 3

PDF文档 专利 深度估计方法和深度估计装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 深度估计方法和深度估计装置 第 1 页 专利 深度估计方法和深度估计装置 第 2 页 专利 深度估计方法和深度估计装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。