全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211073561.5 (22)申请日 2022.09.02 (71)申请人 中兴通讯股份有限公司 地址 518057 广东省深圳市南 山区高新 技 术产业园科技 南路中兴通讯大厦 申请人 中兴通讯 (南京) 有限责任公司 (72)发明人 施文哲 陆平 盛斌 孟子尧  赵义成  (74)专利代理 机构 北京天昊联合知识产权代理 有限公司 1 1112 专利代理师 姜春咸 冯建基 (51)Int.Cl. G06T 7/73(2017.01) G06V 20/00(2022.01) G06V 10/74(2022.01)G06V 10/75(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 位姿预测方法、 装置、 电子设备和介质 (57)摘要 本申请提出一种位姿预测方法、 装置、 电子 设备和介质, 涉及图像处理技术领域。 该方法包 括: 确定与待查询图像的场景相似的多个参考图 像; 确定待查询图像与多个参考图像 之间的位姿 差异信息; 将位姿差异信息输入至视觉定位网络 中进行预测, 确定待查询图像对应的目标位姿信 息。 通过缩小 图像的处理范围, 减少与应用场景 的语义信息的相关性, 并明确待查询图像与多个 参考图像 之间的位姿差异信息, 进一步缩小图像 的处理范围; 将位姿差异信息输入至视觉定位网 络中进行预测, 确定待查询图像对应的目标位姿 信息, 以使用视觉定位网络对位姿差异信息进行 处理, 获得能够衡量待查询图像中的目标的实时 位姿的目标位姿信息, 提升对目标的定位准确 性。 权利要求书3页 说明书12页 附图3页 CN 115409896 A 2022.11.29 CN 115409896 A 1.一种位姿预测方法, 其特 征在于, 所述方法包括: 确定与待查询图像的场景相似的多个参 考图像; 确定所述待查询图像与多个所述 参考图像之间的位姿差异信息; 将所述位姿差异信 息输入至视觉定位网络中进行预测, 确定所述待查询图像对应的目 标位姿信息 。 2.根据权利要求1所述的方法, 其中, 所述确定与待查询图像的场景相似的多个参考图 像, 包括: 依据所述待查询图像对图像数据库进行图像检索, 获得多个与 所述待查询图像在同一 位置范围内的待处 理图像; 依据预设视觉聚类算法对多个所述待处理图像进行分析, 获得多个与 所述待查询图像 对应的位置信息相似的图像, 作为所述 参考图像。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述待查询图像与多个所述参考 图像之间的位姿差异信息, 包括: 以特征金字塔的方式, 分别对所述待查询图像和多个所述参考图像进行特征提取, 获 得所述待查询图像的特 征金字塔、 以及多个与所述 参考图像对应的场景 特征金字塔; 将所述待查询图像的特征金字塔中的图像特征, 分别与多个所述场景特征金字塔 中的 场景特征进行对齐, 确定所述 位姿差异信息 。 4.根据权利要求3所述的方法, 其特征在于, 所述目标位姿包括: 平移自由度和/或旋转 自由度; 其中, 所述平移自由度包括: 基于世界坐标系中的X轴的前后移动自由度、 Y轴的左 右移动自由度和Z轴的上下移动自由度中的至少一种; 所述旋转自由度包括 纵摇自由度、 横 摇自由度和垂摇自由度中的至少一种; 所述差异位姿信 息包括: 平移向量信 息和/或旋转矩阵信 息, 所述平移向量信 息用于表 征所述平移自由度的信息, 所述旋转矩阵信息为基于矩阵的方式表征所述旋转自由度的信 息; 所述将所述位姿差异信 息输入至视觉定位网络 中进行预测, 确定所述待查询图像对应 的目标位姿信息, 包括: 依据非线性最小二乘算法对所述平移向量信息和/或所述旋转矩阵信息进行估计, 获 得所述目标位姿。 5.根据权利要求3所述的方法, 其特征在于, 所述以特征金字塔的方式, 分别对所述待 查询图像和多个所述参考图像进行特征提取, 获得所述待查询图像的特征金字塔、 以及多 个与所述 参考图像对应的场景 特征金字塔, 包括: 将所述待查询图像输入至深度残差网络 中进行特征提取, 获得所述待查询图像的特征 金字塔, 其中, 所述深度 残差网络包括多个分辨率不同的特征提取模块, 所述分辨率的数量 与所述特 征金字塔的层数相同; 将多个所述参考图像分别输入至所述深度残差网络 中进行特征提取, 获得多个所述场 景特征金字塔, 其中, 所述场景特征金字塔包括室内场景特征金字塔和/或室外场景特征金 字塔。 6.根据权利要求5所述的方法, 其特征在于, 所述将所述待查询图像输入至深度残差网 络中进行 特征提取, 获得 所述待查询图像的特 征金字塔, 包括:权 利 要 求 书 1/3 页 2 CN 115409896 A 2采用预设数量的分辨率, 分别对所述待查询图像进行特征提取, 获得多个待处理特征, 其中, 每个所述待处 理特征对应的分辨 率不同; 依据所述预设数量的分辨率, 对预设场景坐标图像进行缩放, 获得多个与所述待处理 特征对应的场景 特征向量; 分别将每个所述待处理特征与其对应的场景特征向量进行向量连接, 获得多个特征图 像; 依据多个所述特 征图像, 确定所述待查询图像的特 征金字塔。 7.根据权利要求2所述的方法, 其特征在于, 所述依据所述待查询图像对图像数据库进 行图像检索, 获得多个与所述待查询图像在同一 位置范围内的待处 理图像, 包括: 依据预设图像提取算法, 分别对所述待查询图像和数据库中的多个图像进行处理, 获 得与所述待查询图像对应的第一图像向量、 以及多个与所述数据库中的图像对应的第二图 像向量; 分别计算所述第一图像向量与多个所述第二图像向量之间的距离, 获得多个图像距 离; 依据预设距离阈值对多个所述图像距离进行筛选, 获得多个参考距离、 以及与所述参 考距离对应的所述待处 理图像; 其中, 所述待处理图像对应的图像向量与 所述第一图像向量之间的距离满足所述预设 距离阈值的要求。 8.根据权利要求2所述的方法, 其特征在于, 所述待处理图像包括: 多个待 匹配点信 息, 所述待匹配点信息是三维空间中的预设目标在所述待处 理图像中的二维投影坐标信息; 所述依据 预设视觉聚类算法对多个所述待处理图像进行分析, 获得多个与 所述待查询 图像对应的位置信息相似的图像, 作为所述 参考图像, 包括: 获取所述预设目标在所述待查询图像中的至少三个预设匹配点信息; 分别获取每 个所述待处 理图像中的至少三个待匹配点信息; 依据每个所述待处理图像中的至少三个待匹配点信息和所述待查询图像中的至少三 个预设匹配点信息, 确定每 个所述待处 理图像与所述待查询图像之间是否存在连通分量; 在确定所述待处理图像与 所述待查询图像之间存在连通分量的情况下, 确定所述待处 理图像为与所述待查询图像的类别相匹配的图像, 并将所述待处理图像标记为所述参考图 像。 9.根据权利要求1所述的方法, 其特征在于, 所述确定与待查询图像的场景相似的多个 参考图像之前, 还 包括: 基于预设的训练集对卷积神经网络进行训练, 获得所述视觉定位网络模型, 其中, 所述 训练集包括多种不同应用场景的图像特 征。 10.一种位姿预测装置, 其特 征在于, 其包括: 参考图像确定模块, 被 配置为确定与待查询图像的场景相似的多个参 考图像; 位姿差异信 息确定模块, 被配置为确定所述待查询图像与多个所述参考图像之间的位 姿差异信息; 预测模块, 被配置为将所述位姿差异信息输入至视觉定位网络中进行预测, 确定所述 待查询图像对应的目标位姿信息 。权 利 要 求 书 2/3 页 3 CN 115409896 A 3

PDF文档 专利 位姿预测方法、装置、电子设备和介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 位姿预测方法、装置、电子设备和介质 第 1 页 专利 位姿预测方法、装置、电子设备和介质 第 2 页 专利 位姿预测方法、装置、电子设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。