全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221012675 3.1 (22)申请日 2022.02.11 (71)申请人 中北大学 地址 030051 山西省太原市学院路3号 (72)发明人 杨晓文 靳瑜昕 韩慧妍 张元  庞敏 韩燮  (74)专利代理 机构 太原申立德知识产权代理事 务所(特殊普通 合伙) 14115 专利代理师 程园园 (51)Int.Cl. G06T 7/00(2017.01) G06T 7/11(2017.01) G06T 5/00(2006.01) G06T 3/40(2006.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于多模态特征融合的RGB-D图像语义 分割方法 (57)摘要 本发明属于计算机视觉领域, 具体涉及一种 基于多模态特征融合的RGB ‑D图像语义分割方 法。 由于RGB和深度特征的内在差异, 如何更有效 地融合两种特征仍是有待解决的问题。 为了解决 该问题提出了注意力引导多模态交叉融合分割 网络(ACFNet), 本发明采用编码器-解码器结 构, 将深度图编码为HHA图像, 设计非对称双流特 征提取网络, RGB和深度编码器分别以ResNet ‑ 101和ResNet ‑50为主干网络, 并在RGB编码器中 添加全局 ‑局部特征提取模块(GL)。 为有效融合 RGB和深度特征, 提出了注意力引导多模态交叉 融合模块(ACFM), 以更好地在多阶段利用融合的 增强特征表示。 权利要求书2页 说明书6页 附图3页 CN 114549439 A 2022.05.27 CN 114549439 A 1.一种基于多模态特 征融合的RGB ‑D图像语义分割方法, 其特 征在于, 包括以下步骤: 步骤1, 数据预处 理, 将单通道的深度图像转 化为三通道的HHA图像; 步骤2, 将RGB和HHA图像作为输入数据, 输入注意力引导多模态交叉融合分割网络模 型, 所述模型遵循编码器 ‑解码器结构, 所述编码器从输入中提取语义特征, 所述解码器采 用上采样技 术恢复输入分辨 率, 为每个输入像素分配一个 语义类别。 2.根据权利要求1所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述步骤1中三通道分别表示水平视差高于地面的高度、 像素 的局部表面法线、 推 断 的重力方向的角度。 3.根据权利要求1所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述步骤2 中编码器对RGB和HHA图像使用非对称双流分支, 包括RGB编码器和深度编 码器, 所述RGB编码器和深度编码器分别以ResNet ‑101网络和 ResNet‑50网络作为主干网 络, 所述ResNet ‑101网络和ResNet ‑50网络均包括7 ×7卷积、 最大池化操作和Stage1、 Stage2、 Stage3和Stage4四个阶段, 并且改进组成主干网络的基本块, 即在Bottleneck中加 入Maxpool并行模块, 记 为MP_Bottleneck, 通过增加网络宽度的方式提高特征提取性能, 如 式(1)所示: FE_out= W3(Cat(W2(W1(Fi n)),M_P(W1(Fi n))    (1) 其中, Fin∈RH×W×C, H、 W和C分别表示特征图的高度、 宽度和通道数, W1, W2, W3分别表示 1× 1, 3×3, 1×1卷积操作, Cat表示拼接操作, M_P表示最大池化操作, FE_out表示ResNet网络每 阶段的输出。 4.根据权利要求3所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 在所述RGB编码器的Stage1、 Stage2、 Stage3、 Stage4四个阶段添加全局特征提取模 块, 使用全局特征提取模块处理FE_out提取全局特征, 并且将最终的全局特征和局部特征通 过相加的方式结合 起来, 组成全局 ‑局部特征提取模块, 上述过程如式(2)~(4)所示: FGL=FE_out+GC(FE_out)        (2) GC=x+Co nv1×1(ReLu(L N(Conv1×1(y))))    (3) y=x×SoftMax(Co nv1×1(x))        (4) 其中, x表示全局特征提取模块模块的输入, GC表示全局特征, FGL表示全局 ‑局部特征, Conv1×1表示1×1卷积操作, LN表示批归一 化操作。 5.根据权利要求4所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述编码 器还包括特征融合模块, 在7 ×7卷积和每个阶段之后均进 行RGB特征和深度 特征的融合, 并且将融合后的特征传输到RGB编 码器和深度编码 器, 在编码 器的每个阶段分 别对RGB特征和深度特征重新加权, 并在所述特征融合模块引入注 意力机制, 在通道和空间 维度上进行注意力操作, 如式(5)~(8)所示: Fa_rgb=CBAM(Frgb_in)        (5) Fa_hha=CBAM(Fhha_in)        (6) CBAM=ca ×σ(Conv7×7(Cat(Avgpo ol(ca),MaxPo ol(ca)))    (7) ca=x×σ(MLP(Avgpo ol(x)+MLP(Maxpo ol(x))        (8) 其中, CBAM表示注意力机制采用CBAM模块, x表示CBAM模块的输入, Frgb_in、 Fhha_in分别表 示输入特征融合模块的RGB特征和深度特征, Fa_rgb、 Fa_hha表示经CBAM注意力机制处理后的权 利 要 求 书 1/2 页 2 CN 114549439 A 2特征输出, σ 表示Sigmoid激活函数, Conv7×7表示7×7卷积操作, Cat表示拼接操作, Avgpool 和Maxpool分别表 示平均池化和最大池化操作, MLP表 示由两个1 ×1卷积层组成的多层感知 机。 6.根据权利要求5所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述特征融合模块使用交叉相乘的方式, 选择经注意力机制处理后的一种模态特征 乘以未经处理的另一种模态特征, 从一种模态中选择可区分的信息辅助修正另一种模态, 之后进行交叉残差连接, 使用经CBAM模块处理后的特征与经另一模态信息修正后的原始模 态信息交叉相加, 进一步重用在网络处理过程中丢失的细节信息, 增强两种模态之间的互 补性, 最后将两种模态信息通过相加的方式进行融合, 如式(9)~(1 1)所示: Fm_rgb=Frgb_in×Fa_hha        (9) Fm_hha=Fhha_in×Fa_rgb        (10) Ff_out=(Fa_rgb+Fm_hha)+(Fa_hha+Fm_rgb)      (11) 其中,×表示逐元素相乘操作, Fm_rgb、 Fm_hha分别表示经相乘操作修正后的特征输出, Ff_out表示特征融合模块的最终输出 结果。 7.根据权利要求1所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述解码 器由5个相同的解码器单元组成, 每个解码器单元由卷积层+BN层+ReLU激活 函数和上采样操作 组成, 并在其中加入短接连接重用在训练过程中丢失的信息, 短接连接 使用1×1卷积改变编码 器阶段的输出通道数, 使其与解码 器对应阶段的通道数相同可以进 行相加操作。 8.根据权利要求7所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述卷积层包括一个1 ×1卷积和两个3×3卷积, 所述上采样操作采用双线性插值方 法, 经过5次上采样 操作后图像分辨 率恢复到 输入大小。 9.根据权利要求8所述的一种基于多模态特征融合的RGB ‑D图像语义分割方法, 其特征 在于, 所述第一个解码器单元的输入通道数为2048, 在图像分辨率增加的过程中通道数逐 渐减少, 最后一个解码器单元用于输出网络预测结果, 去除其最后一个卷积层之后的批归 一化操作, 并且设置 输出通道数为语义类别个数。权 利 要 求 书 2/2 页 3 CN 114549439 A 3

PDF文档 专利 一种基于多模态特征融合的RGB-D图像语义分割方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态特征融合的RGB-D图像语义分割方法 第 1 页 专利 一种基于多模态特征融合的RGB-D图像语义分割方法 第 2 页 专利 一种基于多模态特征融合的RGB-D图像语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。