全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210330691.6 (22)申请日 2022.03.31 (71)申请人 西南科技大 学 地址 621010 四川省绵阳市涪城区青龙 大 道中段59号 (72)发明人 方艳红 罗盆琳  (51)Int.Cl. G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种RGB-D双模态特 征融合的语义分割方法 (57)摘要 本发明提出一种RGB ‑D双模态特征融合语义 分割方法。 首先, 使用轻量化的ResNet34架构作 为双分支编码主干, 分四个阶段提取不同模态特 征信息, 逐层将输出的不同模态特征图传入双模 态特征融合结构, 通过注意力感知需要加强和削 减的位置和空间特征, 融合后的特征送入跳跃链 接模块, 为解码网络提供浅层细 节信息; 然后, 采 用双注意上下文模块丰富最底层特征图全局信 息并连接解码器; 最后, 将来自编码器子网的浅 层、 低层、 细粒度特征与来自解码器子网的深度、 语义、 粗粒度的相同尺度特征图结合在一起, 获 取包含低级空间和高级语义信息的全局特征。 本 发明能充分利用RGB ‑D图像的互补特征, 得到优 异的语义 分割性能, 分割效果较好, 运行效率高, 具有较好的鲁棒 性。 权利要求书2页 说明书5页 附图3页 CN 114693929 A 2022.07.01 CN 114693929 A 1.一种RGB ‑D双模态特征融合的语义分割方法, 其中主要包括五个部分, 第一部分是对 RGB‑D数据集进 行预处理; 第二部 分是对预处理后图像进 行特征提取与特征融合; 第三部 分 是对融合后的图像特征建立丰富的上下文关系; 第四部分是通过解码器融合多级、 多尺度 图像特征并上采样获得与输入分辨率相同的语义分割图像; 第五部 分是对网络的训练和测 试。 第一部分包括两个步骤: 步骤1, 下载室内RGB ‑D数据集, 包括NYUv2、 SUNRGB ‑D, 得到不同数据集的训练集和测试 集样本, 通过 数据处理生成图片名汇总的.txt文件。 步骤2, 设置好每一次需要导入的一一对应的RGB和 深度图像张数, 通过缩放、 裁剪等进 行数据集增强, 得到网络的输入样本 。 第二部分包括两个步骤: 步骤3, 使用引入Non ‑Bottleneck ‑1D架构的轻量化双分支残差结构作为编码器主干, 将原始残差网络残差块中的3 ×3卷积分解 成两个一 维的3×1和1×3卷积, 两个编码支路分 成四个阶段专 注于提取RGB和深度图像的不同模态特 征。 步骤4, 分别在步骤3的每个编码阶段完成后使用双模态特征融合结构, 融合步骤3双 分 支编码主干得到的RGB图像特 征和深度图像特 征。 具体实施如下: (1) 将每一层的RGB特征图和 深度特征图组通过坐标注意力机制, 将两种不同模态特征 信息按照同一种规则来获取感兴趣的特征, 进而协调两种不同类型特征图中各特征信息的 权重; (2) 然后, 利用RGB图像特征和深度图像特征之间的互补特性, 将上述通过注意力机制 获取的特征信息进 行协同优化, 不同模态特征协同优化时权重 分配为1:1, 实现双 模态特征 融合; (3) 最后, 将融合结果通过多尺度的跳跃链接, 使用1 ×1卷积分别将不同层次特征图通 道数转变为512、 25 6、 128通道并送入解码器, 实现多 级、 多尺度模态信息混合。 第三部分包括 一个步骤: 步骤5, 通过双注意力感知上下文结构对步骤4最高层特征进行局部和全局上下文信 息 融合, 将输入特征图分别经位置注意力 分支与通道注意力 分支进行处理并聚合, 再将聚合 后的输出特征图作为类金字塔池化上下文模块输入, 最后 将上下文模块输出的特征图作为 解码器的第首个输入。 其具体步骤如下: (1) 将输入特征图( )输入到双注意力机制的位置注意力分支中, 得到位置 注意力模块输出结果 。 同时, 将输入特征图( )经过通道注意力分 支进行特征提取, 得到通道 注意力分支输出 结果 。 (2) 将两个注意力模块得到的输出进行聚合, 不同注意力分支聚合权重比例为1:1, 以 获得更好的像素级预测的特 征表示XT。 (3) 将XT通过类金字塔池 化模型的 b个不同尺度分支, 分别在 b个分支中进行不同尺度的 池化处理, 使用1 ×1卷积将通道数变为输入 特征图的1/ b, 通过最近邻上采样将特征图尺 寸 恢复到输入大小, 并将原特征图与各个尺度进行连接, 最后对连接后得到的特征图通道数权 利 要 求 书 1/2 页 2 CN 114693929 A 2调整, 使其得到具有丰富上 下文信息的特 征图XOUT, 传入解码器, 本发明 中, 推荐采用 b=4。 第四部分包括四个步骤: 步骤6, 将步骤5中512通道的双模态特征图与步骤4中的512通道的第三层双模态特征 图一起作为第一层解码器的两个输入特征图, 并进行一次上采样, 将输出特征图分辨率扩 大两倍; 步骤7, 将步骤6中256通道的输出特征图与步骤4中256通道的第二层双模态特征图一 起作为第二层解码器的两个输入特征图, 并进行第二次上采样, 将输出特征图分辨率扩大 两倍; 步骤8, 将步骤7的128通道的输出特征图与步骤4中128通道的第一层双模态特征图一 起作为第三层解码器的两个输入特征图, 并再次进行上采样, 将输出特征图分辨率扩大两 倍; 步骤9, 通过两次两倍学习率上采样, 将输出的语义分割结果图尺度扩大至输入图片分 辨率大小。 第五部分包括两个步骤: 步骤10, 对步骤3到步骤9的网络模型, 设置训练批量处理大小为4, 即将随机的4张图片 作为一个批次进行处理, 每训练完一个周期进行一次测试, 测试时批量处理大小为8, 使用 SGD的优化方法, 设置动量为0.9, 初始学习率为0.01, 每个周期使用poly的学习率策略来调 整学习率, 训练5 00次后得到最优 模型参数文件。 步骤11, 将需要测试的RGB图像和 深度图像输入训练好的模型当中, 得到图像语义分割 输出结果。 2.根据权利要求1所述的一种RGB ‑D双模态特征融合的语义分割方法, 其特征在于, 步 骤4 (1) 中将多级、 多尺度的不同模态特征经过同种注意力机制按照同一规则协调特征权 重; 步骤4 (2) 中将各编 码阶段相同尺度的不同模态特征图进 行协同优化, 其中, 不同模态特 征协同优化时权重比例为1:1; 步骤4 (3) 中采用跳跃链接和1 ×1卷积将三个不同层次特征 图送入解码 器实现多级、 多尺度特征融合, 其中, 通过1 ×1卷积后不同层次特征图通道数分 别为512、 25 6、 128。 3.根据权利要求1所述的一种RGB ‑D双模态特征融合的语义分割方法, 其特征在于, 步 骤5 (1) 中利用双注意力机制提取位置和通道特征, 步骤5 (2) 中进行双注意力 特征图聚合, 不同注意力分支聚合权重比例为 1:1, 整合任意尺度局部特征的相似性, 自适应的集 成局部 特征和全局特征的依赖性, 增强对细节的识别能力, 为上下文模块提供丰富的特征信息; 步 骤5 (3) 类金字塔池化上下文模型融合 b个分支输出不同大小的特征映射, 减小不同区域特 征的上下文信息损失, 为 解码器模块 提供了全局上 下文信息, b=4。权 利 要 求 书 2/2 页 3 CN 114693929 A 3

PDF文档 专利 一种RGB-D双模态特征融合的语义分割方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种RGB-D双模态特征融合的语义分割方法 第 1 页 专利 一种RGB-D双模态特征融合的语义分割方法 第 2 页 专利 一种RGB-D双模态特征融合的语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。