(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210150326.7
(22)申请日 2022.02.18
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 李旭 倪培洲 徐启敏 祝雪芬
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 蒋昱
(51)Int.Cl.
G06T 7/10(2017.01)
G06T 7/521(2017.01)
G06V 10/26(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于跨模态语义增强的非结构化环境点云
语义分割方法
(57)摘要
本发明提出基于跨模态语义增强的非结构
化环境点云语义分割方法, 该方法针对当前大部
分点云分割算法缺乏图像纹理色彩等语义信息
且在非结构化环境下难以同时满足准确性和实
时性要求的问题, 构建了图像、 激光雷达深度融
合的非结构化环境语义分割网络, 步骤如下: 首
先设计一种基于球面投影的点云分割模块, 其次
设计一种基于残差跨层连接的图像 分割模块, 接
着设计一种基于GAN的二维伪语义增强模块以弥
补点云缺失的色彩纹理等语义信息, 最后利用样
本集对网络进行训练, 获得网络参数, 从而实现
非结构化环境 三维点云语义的高效与可靠分割。
权利要求书4页 说明书10页 附图4页
CN 114549537 A
2022.05.27
CN 114549537 A
1.基于跨模态语义增强的非结构化环境点云语义分割方法, 其特征在于: 包含如下步
骤:
(1)基于球面投影的点云 分割模块设计;
子步骤1: 雷达点云预处 理
激光雷达的数据点坐标系OXYZ是以雷达中心为原点, 载体前进方向为OX轴, 按右手定
则建立; 方位角
和顶角 θ 的计算公式如下:
其中, (x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标; 对于点云中的每一个点
都可以通过其(x,y,z)计算其
即将欧式坐标系中的点投影到球面坐标系中; 此球面
坐标系实则是一个二维坐标系, 对其角度进行微分化从而得到一个二维的直角坐标系:
其中, xi、 xj为 二维直角坐标系的横、 纵坐标,
Δθ 分别对应
θ 的分辨率;
通过此球面投影变换, 将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点
(xi,xj); 提取点云中每一个点的3个特征: 欧式坐标(x,y,z), 从而得到一个尺寸为(H,W,C)
的张量, 其中, H为球面投影变换后所得渲染图像的宽, W为该图的长, C=3; 以KITTI数据集
为例, 该数据集使用的是64线激光雷达, 因此H=64; 水平方向上, 受数据集标注范围的限
制, 使用正前方90 °的雷达点云数据, 并将其划分为512个网格, 即水平采样512个点, 因此W
=512;
子步骤2: 基于残差扩张卷积的编码 ‑解码网络设计
针对非结构化环境语义分割任务, 设计了一种基于残差扩张卷积的编码 ‑解码网络;
首先, 确定卷积层类型、 卷积核大小和卷积步长;
设计扩张卷积层卷积核大小为1 ×1和3×3, 步长均设为1; 反卷积层的卷积核大小为3
×3, 步长为2, 使得 经过上采样后的特 征图与输入分辨 率相同;
其次, 确定池化层类型、 采样尺寸和步长;
采用最大池化操作来对特 征图进行 下采样, 并将采样尺寸设为2 ×2, 步长设为2;
接着, 确定dropout层分布;
仅在编码器和解码器的中心层插 入dropout;
最后, 将上述涉及的不同类型的网络层组合, 利用交叉验证法进行模型选择, 确定各层
的层数、 卷积核数量以及 扩张卷积的扩张率, 得到如下最优网络架构, 其中每一个卷积操作
都经过ReLU函数激活:
Block1: 用32个1 ×1、 扩张率为1的卷积核与512 ×64×3的输入样本做卷积, 得到子特
征图1, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积 并做批标准化处
理, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做卷积并做BN, 再与子特征图1做逐像素相
加, 得到维度为512 ×64×32的特征图;
池化层1: Block2输出的特征图用2 ×2的最大池化层做下采样, 步长为2, 得到维度为
256×32×32的特征图;
Block2: 参照Block1, 用64个1 ×1、 扩张率为1的卷积核与池化层1输出的特征图做卷权 利 要 求 书 1/4 页
2
CN 114549537 A
2积, 得到子特征图2, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做
BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图2做逐像素相
加, 得到维度为25 6×32×64的特征图;
池化层2: Block2输出的特征图经过dropout后, 用2 ×2的最大池化层做下采样, 步长为
2, 得到维度为128 ×16×64的特征图;
Block3: 参照Block1, 用128个1 ×1、 扩张率为1的卷积核与池化层2输出的特征图做卷
积, 得到子特征图3, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做
BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图3做逐像素相
加, 得到维度为128 ×16×128的特征图;
池化层3: Block3输出的特征图经过dropout后, 用2 ×2的最大池化层做下采样, 步长为
2, 得到维度为64 ×8×128的特征图;
Block4: 参照Block1, 用256个1 ×1、 扩张率为1的卷积核与池化层3输出的特征图做卷
积, 得到子特征图4, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做
BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图4做逐像素相
加, 得到维度为64 ×8×256的特征图;
反卷积层1: 用128个3 ×3的卷积核与Block4输出的特征图做卷积并做BN, 步长为2, 经
dropout后与Block3输出的特征图逐像素相加, 再经过dr opout后分别与3 ×3、 扩张率为1以
及3×3、 扩张率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做
卷积并做BN, 最后经 过dropout得到维度为128 ×16×128的特征图;
反卷积层2: 参照反卷积层1, 用64个3 ×3的卷积核与Block4输出的特征 图做卷积并做
BN, 步长为2, 经dropout后与Block3输出的特征图逐像素相加, 再经过dropout后分别 与3×
3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率
为1的卷积核做卷积并做BN, 最后经 过dropout得到维度为25 6×32×64的特征图;
反卷积层3: 参照反卷积层1, 用32个3 ×3的卷积核与Block4输出的特征 图做卷积并做
BN, 步长为2, 与Block3输出的特征图逐像素相加, 再分别与3 ×3、 扩张率为1以及3 ×3、 扩张
率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做卷积并做BN,
最后得到维度为512 ×64×32的特征图;
标准卷积层: 用3个1 ×1的卷积核与反卷积层3输出的特征图做卷积, 得到维度为512 ×
64×3的特征图, 3个通道对应 语义类的总数;
Soft‑max层: 对标准卷积层输出的特征图做像素级分类, 得到各类的概率, 实现场景的
三维语义分割;
子步骤3: 损失函数设计
将传统的交叉熵损失用类频次的平方根对其加权, 并与 Lovasz‑Softmax组合作为最终
的损失函数, 使各类的I oU得分最大化, 具体如下式:
Lseg3D= ‑i1viP3Di logP3Di+1CkJeck3
其中, vi是各类的点数, P3Di和P3Di分别为真值和对应的预测概率, J表示IoU的Lovasz
扩展, e(ck)是类ck的误差向量;
(2)基于残差跨层连接的图像分割模块设计;
子步骤1: 编码 ‑解码网络设计权 利 要 求 书 2/4 页
3
CN 114549537 A
3
专利 基于跨模态语义增强的非结构化环境点云语义分割方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:12:05上传分享