全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210150326.7 (22)申请日 2022.02.18 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 李旭 倪培洲 徐启敏 祝雪芬  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 蒋昱 (51)Int.Cl. G06T 7/10(2017.01) G06T 7/521(2017.01) G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于跨模态语义增强的非结构化环境点云 语义分割方法 (57)摘要 本发明提出基于跨模态语义增强的非结构 化环境点云语义分割方法, 该方法针对当前大部 分点云分割算法缺乏图像纹理色彩等语义信息 且在非结构化环境下难以同时满足准确性和实 时性要求的问题, 构建了图像、 激光雷达深度融 合的非结构化环境语义分割网络, 步骤如下: 首 先设计一种基于球面投影的点云分割模块, 其次 设计一种基于残差跨层连接的图像 分割模块, 接 着设计一种基于GAN的二维伪语义增强模块以弥 补点云缺失的色彩纹理等语义信息, 最后利用样 本集对网络进行训练, 获得网络参数, 从而实现 非结构化环境 三维点云语义的高效与可靠分割。 权利要求书4页 说明书10页 附图4页 CN 114549537 A 2022.05.27 CN 114549537 A 1.基于跨模态语义增强的非结构化环境点云语义分割方法, 其特征在于: 包含如下步 骤: (1)基于球面投影的点云 分割模块设计; 子步骤1: 雷达点云预处 理 激光雷达的数据点坐标系OXYZ是以雷达中心为原点, 载体前进方向为OX轴, 按右手定 则建立; 方位角 和顶角 θ 的计算公式如下: 其中, (x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标; 对于点云中的每一个点 都可以通过其(x,y,z)计算其 即将欧式坐标系中的点投影到球面坐标系中; 此球面 坐标系实则是一个二维坐标系, 对其角度进行微分化从而得到一个二维的直角坐标系: 其中, xi、 xj为 二维直角坐标系的横、 纵坐标, Δθ 分别对应 θ 的分辨率; 通过此球面投影变换, 将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点 (xi,xj); 提取点云中每一个点的3个特征: 欧式坐标(x,y,z), 从而得到一个尺寸为(H,W,C) 的张量, 其中, H为球面投影变换后所得渲染图像的宽, W为该图的长, C=3; 以KITTI数据集 为例, 该数据集使用的是64线激光雷达, 因此H=64; 水平方向上, 受数据集标注范围的限 制, 使用正前方90 °的雷达点云数据, 并将其划分为512个网格, 即水平采样512个点, 因此W =512; 子步骤2: 基于残差扩张卷积的编码 ‑解码网络设计 针对非结构化环境语义分割任务, 设计了一种基于残差扩张卷积的编码 ‑解码网络; 首先, 确定卷积层类型、 卷积核大小和卷积步长; 设计扩张卷积层卷积核大小为1 ×1和3×3, 步长均设为1; 反卷积层的卷积核大小为3 ×3, 步长为2, 使得 经过上采样后的特 征图与输入分辨 率相同; 其次, 确定池化层类型、 采样尺寸和步长; 采用最大池化操作来对特 征图进行 下采样, 并将采样尺寸设为2 ×2, 步长设为2; 接着, 确定dropout层分布; 仅在编码器和解码器的中心层插 入dropout; 最后, 将上述涉及的不同类型的网络层组合, 利用交叉验证法进行模型选择, 确定各层 的层数、 卷积核数量以及 扩张卷积的扩张率, 得到如下最优网络架构, 其中每一个卷积操作 都经过ReLU函数激活: Block1: 用32个1 ×1、 扩张率为1的卷积核与512 ×64×3的输入样本做卷积, 得到子特 征图1, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积 并做批标准化处 理, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做卷积并做BN, 再与子特征图1做逐像素相 加, 得到维度为512 ×64×32的特征图; 池化层1: Block2输出的特征图用2 ×2的最大池化层做下采样, 步长为2, 得到维度为 256×32×32的特征图; Block2: 参照Block1, 用64个1 ×1、 扩张率为1的卷积核与池化层1输出的特征图做卷权 利 要 求 书 1/4 页 2 CN 114549537 A 2积, 得到子特征图2, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做 BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图2做逐像素相 加, 得到维度为25 6×32×64的特征图; 池化层2: Block2输出的特征图经过dropout后, 用2 ×2的最大池化层做下采样, 步长为 2, 得到维度为128 ×16×64的特征图; Block3: 参照Block1, 用128个1 ×1、 扩张率为1的卷积核与池化层2输出的特征图做卷 积, 得到子特征图3, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做 BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图3做逐像素相 加, 得到维度为128 ×16×128的特征图; 池化层3: Block3输出的特征图经过dropout后, 用2 ×2的最大池化层做下采样, 步长为 2, 得到维度为64 ×8×128的特征图; Block4: 参照Block1, 用256个1 ×1、 扩张率为1的卷积核与池化层3输出的特征图做卷 积, 得到子特征图4, 之后分别与3 ×3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做 BN, 将特征图拼接后与1 ×1、 扩张率为1的卷积核做卷积并做BN, 再与子特征图4做逐像素相 加, 得到维度为64 ×8×256的特征图; 反卷积层1: 用128个3 ×3的卷积核与Block4输出的特征图做卷积并做BN, 步长为2, 经 dropout后与Block3输出的特征图逐像素相加, 再经过dr opout后分别与3 ×3、 扩张率为1以 及3×3、 扩张率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做 卷积并做BN, 最后经 过dropout得到维度为128 ×16×128的特征图; 反卷积层2: 参照反卷积层1, 用64个3 ×3的卷积核与Block4输出的特征 图做卷积并做 BN, 步长为2, 经dropout后与Block3输出的特征图逐像素相加, 再经过dropout后分别 与3× 3、 扩张率为1以及3 ×3、 扩张率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率 为1的卷积核做卷积并做BN, 最后经 过dropout得到维度为25 6×32×64的特征图; 反卷积层3: 参照反卷积层1, 用32个3 ×3的卷积核与Block4输出的特征 图做卷积并做 BN, 步长为2, 与Block3输出的特征图逐像素相加, 再分别与3 ×3、 扩张率为1以及3 ×3、 扩张 率为2的卷积核做卷积并做BN, 将特征图拼接后与1 ×1、 扩张率为 1的卷积核做卷积并做BN, 最后得到维度为512 ×64×32的特征图; 标准卷积层: 用3个1 ×1的卷积核与反卷积层3输出的特征图做卷积, 得到维度为512 × 64×3的特征图, 3个通道对应 语义类的总数; Soft‑max层: 对标准卷积层输出的特征图做像素级分类, 得到各类的概率, 实现场景的 三维语义分割; 子步骤3: 损失函数设计 将传统的交叉熵损失用类频次的平方根对其加权, 并与 Lovasz‑Softmax组合作为最终 的损失函数, 使各类的I oU得分最大化, 具体如下式: Lseg3D= ‑i1viP3Di logP3Di+1CkJeck3 其中, vi是各类的点数, P3Di和P3Di分别为真值和对应的预测概率, J表示IoU的Lovasz 扩展, e(ck)是类ck的误差向量; (2)基于残差跨层连接的图像分割模块设计; 子步骤1: 编码 ‑解码网络设计权 利 要 求 书 2/4 页 3 CN 114549537 A 3

PDF文档 专利 基于跨模态语义增强的非结构化环境点云语义分割方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态语义增强的非结构化环境点云语义分割方法 第 1 页 专利 基于跨模态语义增强的非结构化环境点云语义分割方法 第 2 页 专利 基于跨模态语义增强的非结构化环境点云语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。