专利基于跨模态语义增强的非结构化环境点云语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210150326.7 (22)申请日 2022.02.18 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人李旭　倪培洲　徐启敏　祝雪芬　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师蒋昱 (51)Int.Cl. G06T 7/10(2017.01) G06T 7/521(2017.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于跨模态语义增强的非结构化环境点云语义分割方法 (57)摘要本发明提出基于跨模态语义增强的非结构化环境点云语义分割方法，该方法针对当前大部分点云分割算法缺乏图像纹理色彩等语义信息且在非结构化环境下难以同时满足准确性和实时性要求的问题，构建了图像、激光雷达深度融合的非结构化环境语义分割网络，步骤如下：首先设计一种基于球面投影的点云分割模块，其次设计一种基于残差跨层连接的图像分割模块，接着设计一种基于GAN的二维伪语义增强模块以弥补点云缺失的色彩纹理等语义信息，最后利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境三维点云语义的高效与可靠分割。权利要求书4页说明书10页附图4页 CN 114549537 A 2022.05.27 CN 114549537 A 1.基于跨模态语义增强的非结构化环境点云语义分割方法，其特征在于：包含如下步骤： (1)基于球面投影的点云分割模块设计；子步骤1：雷达点云预处理激光雷达的数据点坐标系OXYZ是以雷达中心为原点，载体前进方向为OX轴，按右手定则建立；方位角和顶角 θ 的计算公式如下：其中， (x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标；对于点云中的每一个点都可以通过其(x,y,z)计算其即将欧式坐标系中的点投影到球面坐标系中；此球面坐标系实则是一个二维坐标系，对其角度进行微分化从而得到一个二维的直角坐标系：其中， xi、 xj为二维直角坐标系的横、纵坐标， Δθ 分别对应 θ 的分辨率；通过此球面投影变换，将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点 (xi,xj)；提取点云中每一个点的3个特征：欧式坐标(x,y,z)，从而得到一个尺寸为(H,W,C) 的张量，其中， H为球面投影变换后所得渲染图像的宽， W为该图的长， C＝3；以KITTI数据集为例，该数据集使用的是64线激光雷达，因此H＝64；水平方向上，受数据集标注范围的限制，使用正前方90 °的雷达点云数据，并将其划分为512个网格，即水平采样512个点，因此W ＝512；子步骤2：基于残差扩张卷积的编码 ‑解码网络设计针对非结构化环境语义分割任务，设计了一种基于残差扩张卷积的编码 ‑解码网络；首先，确定卷积层类型、卷积核大小和卷积步长；设计扩张卷积层卷积核大小为1 ×1和3×3，步长均设为1；反卷积层的卷积核大小为3 ×3，步长为2，使得经过上采样后的特征图与输入分辨率相同；其次，确定池化层类型、采样尺寸和步长；采用最大池化操作来对特征图进行下采样，并将采样尺寸设为2 ×2，步长设为2；接着，确定dropout层分布；仅在编码器和解码器的中心层插入dropout；最后，将上述涉及的不同类型的网络层组合，利用交叉验证法进行模型选择，确定各层的层数、卷积核数量以及扩张卷积的扩张率，得到如下最优网络架构，其中每一个卷积操作都经过ReLU函数激活： Block1：用32个1 ×1、扩张率为1的卷积核与512 ×64×3的输入样本做卷积，得到子特征图1，之后分别与3 ×3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做批标准化处理，将特征图拼接后与1 ×1、扩张率为 1的卷积核做卷积并做BN，再与子特征图1做逐像素相加，得到维度为512 ×64×32的特征图；池化层1： Block2输出的特征图用2 ×2的最大池化层做下采样，步长为2，得到维度为 256×32×32的特征图； Block2：参照Block1，用64个1 ×1、扩张率为1的卷积核与池化层1输出的特征图做卷权　利　要　求　书 1/4 页 2 CN 114549537 A 2积，得到子特征图2，之后分别与3 ×3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做 BN，将特征图拼接后与1 ×1、扩张率为1的卷积核做卷积并做BN，再与子特征图2做逐像素相加，得到维度为25 6×32×64的特征图；池化层2： Block2输出的特征图经过dropout后，用2 ×2的最大池化层做下采样，步长为 2，得到维度为128 ×16×64的特征图； Block3：参照Block1，用128个1 ×1、扩张率为1的卷积核与池化层2输出的特征图做卷积，得到子特征图3，之后分别与3 ×3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做 BN，将特征图拼接后与1 ×1、扩张率为1的卷积核做卷积并做BN，再与子特征图3做逐像素相加，得到维度为128 ×16×128的特征图；池化层3： Block3输出的特征图经过dropout后，用2 ×2的最大池化层做下采样，步长为 2，得到维度为64 ×8×128的特征图； Block4：参照Block1，用256个1 ×1、扩张率为1的卷积核与池化层3输出的特征图做卷积，得到子特征图4，之后分别与3 ×3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做 BN，将特征图拼接后与1 ×1、扩张率为1的卷积核做卷积并做BN，再与子特征图4做逐像素相加，得到维度为64 ×8×256的特征图；反卷积层1：用128个3 ×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经 dropout后与Block3输出的特征图逐像素相加，再经过dr opout后分别与3 ×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1 ×1、扩张率为 1的卷积核做卷积并做BN，最后经过dropout得到维度为128 ×16×128的特征图；反卷积层2：参照反卷积层1，用64个3 ×3的卷积核与Block4输出的特征图做卷积并做 BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3× 3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1 ×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为25 6×32×64的特征图；反卷积层3：参照反卷积层1，用32个3 ×3的卷积核与Block4输出的特征图做卷积并做 BN，步长为2，与Block3输出的特征图逐像素相加，再分别与3 ×3、扩张率为1以及3 ×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1 ×1、扩张率为 1的卷积核做卷积并做BN，最后得到维度为512 ×64×32的特征图；标准卷积层：用3个1 ×1的卷积核与反卷积层3输出的特征图做卷积，得到维度为512 × 64×3的特征图， 3个通道对应语义类的总数； Soft‑max层：对标准卷积层输出的特征图做像素级分类，得到各类的概率，实现场景的三维语义分割；子步骤3：损失函数设计将传统的交叉熵损失用类频次的平方根对其加权，并与 Lovasz‑Softmax组合作为最终的损失函数，使各类的I oU得分最大化，具体如下式： Lseg3D＝ ‑i1viP3Di logP3Di+1CkJeck3 其中， vi是各类的点数， P3Di和P3Di分别为真值和对应的预测概率， J表示IoU的Lovasz 扩展， e(ck)是类ck的误差向量； (2)基于残差跨层连接的图像分割模块设计；子步骤1：编码 ‑解码网络设计权　利　要　求　书 2/4 页 3 CN 114549537 A 3

专利 基于跨模态语义增强的非结构化环境点云语义分割方法

专利基于跨模态语义增强的非结构化环境点云语义分割方法