专利一种动态环境下基于改进SuperPoint的视觉SLAM方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210835231.9 (22)申请日 2022.07.15 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人李福生　黄杰　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师甘茂 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/82(2022.01) G06V 10/26(2022.01) G06T 3/40(2006.01) G06N 3/04(2006.01) (54)发明名称一种动态环境下基于改进SuperPoint的视觉SLAM方法 (57)摘要本发明属于视觉SLAM技术领域，具体提供一种动态环境下基于改进SuperPoint的视觉SLAM 方法，用以解决现有动态环境下的视觉SLA M方法鲁棒性不足的问题；本发明首先在S uperPoint网络的基础上，构建了添加残差权重分支的特征点及描述子提取网络，将网络残差权重分支输出与特征点分支输出进行加权融合，使构建的网络具有剔除动态特征点的功能；之后将构建的网络应用于ORB‑SLAM2的跟踪线程，代替ORB方法提取图像特征点和描述子；结合ORB ‑SLAM2的局部建图和回环检测线程，实现了动态环境下鲁棒视觉 SLAM系统，提高了视觉SLA M系统在动态环境下位姿估计的准确性和鲁棒性。权利要求书3页说明书7页附图2页 CN 115393603 A 2022.11.25 CN 115393603 A 1.一种动态环境下基于改进SuperPo int的视觉SLAM方法，其特征在于，包括以下步骤：步骤1、构建带标签数据集；将无标签的真实图像作为输入，使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签，使用特征点自标注方法得到特征点伪标签；步骤2、构建图像静态特征点及描述子提取网络，并在带标签数据集上完成离线训练；所述图像静态特征点及描述子提取网络包括：共享编码器、残差权重分支、特征点分支及描述子分支，输入图像经过共享编码器进行进行下采样得到初步特征图，残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码，得到残差权重图、特征点概率图与描述子特征图，其中，残差权重图与特征点概率图进一步加权融合得到特征点置信度图，再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点；对描述子特征图进行双三次线性插值，再通过L2归一化为单位长度，得到稠密描述子向量；步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB ‑SLAM2的特征点和描述子提取过程，实现基于改进SuperPo int的视觉SLAM方法。 2.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述共享编码器从的输入图像中得到初步特征图，具体由依次连接的Conv3 ×3×1×64/s2、 Conv3×3×64×64、 Conv3 ×3×64×128/s2、 Conv3 ×3×128×128、 Conv3 ×3×128×256/ s2、 Conv3×3×256×256构成，且每个卷积层后均设置非线性函数Relu层。 3.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述残差权重分支中通过残差权重解码器对初步特征图进行解码，解码过程中使用 PixelShu ffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸，最后通过 Sigmoid函数将输出映射到[0,1]范围，得到残差权重图；所述残差权重解码器由依次连接的Conv3×3×256×256、 Conv3 ×3×64×64、 Conv3 ×3×16×16、 Conv1 ×1×4×1构成，且卷积层Conv3 ×3×256×256、 Conv3 ×3×64×64、 Conv3 ×3×16×16后均设置非线性函数 Relu层。 4.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出，再通过Softmax 操作丢弃回收通道，最后使用Reshape操作进行维度切换，得到特征点概率图；所述特征点解码器由Conv3 ×3×256×256、 Conv1 ×1×256×65构成，且Conv3 ×3×256×256后设置非线性函数Relu层。 5.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述描述子检测分支中通过描述子解码器对初步特征图进行解码，得到维度为(H/8) ×(W/8) ×256的描述子特征图，再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量；所述描述子解码器由Conv3 ×3×256×256、 Conv1 ×1×256×256构成，且Conv3 ×3× 256×256后设置非线性函数Relu层。 6.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述离线训练具体为：将带标签数据集中真实图像进行随机单应性变换得到副本图像，将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络；设置损失函数，对图像静态特征点及描述子提取网络进行离线训练；权　利　要　求　书 1/3 页 2 CN 115393603 A 2所述损失函数L在SuperPoint损失函数中增加了残差权重损失，即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成，具体为： L(Xp,X′p,Xw,X′w,D,D′； Yp,Y′p,Yw,Y′w,S)＝Lp(Xp,Yp)+Lp(X′p,Y′p)+λ1Lw(Xw,Yw)+λ1Lw (X′w,Y′w)+λ2Ld(D,D′,S) 其中， Xp与Yp为真实图像的特征点预测输出与标签值， X ′p与Y′p为副本图像的特征点预测输出与标签值， Xw与Yw则为真实图像的残差权重预测输出与标签值， X ′w与Y′w为副本图像的残差权重预测输出与标签值， D与D ′为真实图像与副本图像输入网络后得到的描述子特征图， S表示D与D ′的位置关系， λ1与 λ2为超参数； Lp为特征点预测的损失函数，采用全卷积交叉熵损失，具体为：其中，其中， Hc＝H/8， Wc＝W/8， H与W为图像的高和宽； (h,w)表示位置坐标， xhwk表示特征点概率图(维度为(H/8) ×(W/8)×65)中第k通道(h,w)位置的预测值，表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值； Lw为残差权重预测损失函数，采用逐像素L1损失，具体为：其中， xhw为残差权重图中(h,w)位置的预测值， yhw为残差权重标签图中(h,w)位置的标签值； Ld为特征点描述损失函数，采用铰链损失，具体为：其中， dhw表示描述子特征图D中(h,w)位置的描述子单元， d ′h′w′表示描述子特征图D ′中 (h′,w′)位置的描述子单元； shwh′w′用以表征dhw与d′h′w′位置是否相近： phw表示描述子单元dhw在真实图像的坐标位置，表示将描述子单元位置phw进行相应单应性变换后的描述子单元位置； ph′w′表示描述子单元dh′w′在副本图像的坐标位置； ld为： ld(d,d′； s)＝λd×s×max(0,mp‑dTd′)+(1‑s)×max(0,dTd′ ‑mn)， mp与mn为正裕度与负裕度， λd为超参数。 7.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述步骤1中，使用特征点自标注方法得到特征点伪标签，具体为：将无标签的真实图像作为 MagicPoint网络的输入，先对输入图像进行N次随机单应性变换操作得到图像副本，使用 MagicPoint网络在变换后的图像副本上提取特征点，将包含了特征点的图像副本通过相应权　利　要　求　书 2/3 页 3 CN 115393603 A 3

专利 一种动态环境下基于改进SuperPoint的视觉SLAM方法

专利一种动态环境下基于改进SuperPoint的视觉SLAM方法