专利位姿预测方法、装置、电子设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211073561.5 (22)申请日 2022.09.02 (71)申请人中兴通讯股份有限公司地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦申请人中兴通讯（南京）有限责任公司 (72)发明人施文哲　陆平　盛斌　孟子尧　赵义成　 (74)专利代理机构北京天昊联合知识产权代理有限公司 1 1112 专利代理师姜春咸　冯建基 (51)Int.Cl. G06T 7/73(2017.01) G06V 20/00(2022.01) G06V 10/74(2022.01)G06V 10/75(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称位姿预测方法、装置、电子设备和介质 (57)摘要本申请提出一种位姿预测方法、装置、电子设备和介质，涉及图像处理技术领域。该方法包括：确定与待查询图像的场景相似的多个参考图像；确定待查询图像与多个参考图像之间的位姿差异信息；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息。通过缩小图像的处理范围，减少与应用场景的语义信息的相关性，并明确待查询图像与多个参考图像之间的位姿差异信息，进一步缩小图像的处理范围；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，以使用视觉定位网络对位姿差异信息进行处理，获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息，提升对目标的定位准确性。权利要求书3页说明书12页附图3页 CN 115409896 A 2022.11.29 CN 115409896 A 1.一种位姿预测方法，其特征在于，所述方法包括：确定与待查询图像的场景相似的多个参考图像；确定所述待查询图像与多个所述参考图像之间的位姿差异信息；将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。 2.根据权利要求1所述的方法，其中，所述确定与待查询图像的场景相似的多个参考图像，包括：依据所述待查询图像对图像数据库进行图像检索，获得多个与所述待查询图像在同一位置范围内的待处理图像；依据预设视觉聚类算法对多个所述待处理图像进行分析，获得多个与所述待查询图像对应的位置信息相似的图像，作为所述参考图像。 3.根据权利要求2所述的方法，其特征在于，所述确定所述待查询图像与多个所述参考图像之间的位姿差异信息，包括：以特征金字塔的方式，分别对所述待查询图像和多个所述参考图像进行特征提取，获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔；将所述待查询图像的特征金字塔中的图像特征，分别与多个所述场景特征金字塔中的场景特征进行对齐，确定所述位姿差异信息。 4.根据权利要求3所述的方法，其特征在于，所述目标位姿包括：平移自由度和/或旋转自由度；其中，所述平移自由度包括：基于世界坐标系中的X轴的前后移动自由度、 Y轴的左右移动自由度和Z轴的上下移动自由度中的至少一种；所述旋转自由度包括纵摇自由度、横摇自由度和垂摇自由度中的至少一种；所述差异位姿信息包括：平移向量信息和/或旋转矩阵信息，所述平移向量信息用于表征所述平移自由度的信息，所述旋转矩阵信息为基于矩阵的方式表征所述旋转自由度的信息；所述将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息，包括：依据非线性最小二乘算法对所述平移向量信息和/或所述旋转矩阵信息进行估计，获得所述目标位姿。 5.根据权利要求3所述的方法，其特征在于，所述以特征金字塔的方式，分别对所述待查询图像和多个所述参考图像进行特征提取，获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔，包括：将所述待查询图像输入至深度残差网络中进行特征提取，获得所述待查询图像的特征金字塔，其中，所述深度残差网络包括多个分辨率不同的特征提取模块，所述分辨率的数量与所述特征金字塔的层数相同；将多个所述参考图像分别输入至所述深度残差网络中进行特征提取，获得多个所述场景特征金字塔，其中，所述场景特征金字塔包括室内场景特征金字塔和/或室外场景特征金字塔。 6.根据权利要求5所述的方法，其特征在于，所述将所述待查询图像输入至深度残差网络中进行特征提取，获得所述待查询图像的特征金字塔，包括：权　利　要　求　书 1/3 页 2 CN 115409896 A 2采用预设数量的分辨率，分别对所述待查询图像进行特征提取，获得多个待处理特征，其中，每个所述待处理特征对应的分辨率不同；依据所述预设数量的分辨率，对预设场景坐标图像进行缩放，获得多个与所述待处理特征对应的场景特征向量；分别将每个所述待处理特征与其对应的场景特征向量进行向量连接，获得多个特征图像；依据多个所述特征图像，确定所述待查询图像的特征金字塔。 7.根据权利要求2所述的方法，其特征在于，所述依据所述待查询图像对图像数据库进行图像检索，获得多个与所述待查询图像在同一位置范围内的待处理图像，包括：依据预设图像提取算法，分别对所述待查询图像和数据库中的多个图像进行处理，获得与所述待查询图像对应的第一图像向量、以及多个与所述数据库中的图像对应的第二图像向量；分别计算所述第一图像向量与多个所述第二图像向量之间的距离，获得多个图像距离；依据预设距离阈值对多个所述图像距离进行筛选，获得多个参考距离、以及与所述参考距离对应的所述待处理图像；其中，所述待处理图像对应的图像向量与所述第一图像向量之间的距离满足所述预设距离阈值的要求。 8.根据权利要求2所述的方法，其特征在于，所述待处理图像包括：多个待匹配点信息，所述待匹配点信息是三维空间中的预设目标在所述待处理图像中的二维投影坐标信息；所述依据预设视觉聚类算法对多个所述待处理图像进行分析，获得多个与所述待查询图像对应的位置信息相似的图像，作为所述参考图像，包括：获取所述预设目标在所述待查询图像中的至少三个预设匹配点信息；分别获取每个所述待处理图像中的至少三个待匹配点信息；依据每个所述待处理图像中的至少三个待匹配点信息和所述待查询图像中的至少三个预设匹配点信息，确定每个所述待处理图像与所述待查询图像之间是否存在连通分量；在确定所述待处理图像与所述待查询图像之间存在连通分量的情况下，确定所述待处理图像为与所述待查询图像的类别相匹配的图像，并将所述待处理图像标记为所述参考图像。 9.根据权利要求1所述的方法，其特征在于，所述确定与待查询图像的场景相似的多个参考图像之前，还包括：基于预设的训练集对卷积神经网络进行训练，获得所述视觉定位网络模型，其中，所述训练集包括多种不同应用场景的图像特征。 10.一种位姿预测装置，其特征在于，其包括：参考图像确定模块，被配置为确定与待查询图像的场景相似的多个参考图像；位姿差异信息确定模块，被配置为确定所述待查询图像与多个所述参考图像之间的位姿差异信息；预测模块，被配置为将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。权　利　要　求　书 2/3 页 3 CN 115409896 A 3

专利 位姿预测方法、装置、电子设备和介质

专利位姿预测方法、装置、电子设备和介质