全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210143670.3 (22)申请日 2022.02.16 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 马伟 徐儒常  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 刘萍 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种视图重要性网络与自注意力机制相结 合的三维物体识别方法 (57)摘要 本发明公开了一种视图重要性网络与自注 意力机制相结合的三维物体识别方法。 该方法包 括: 将待识别三维物体从n个不同的视角进行投 影获得n个不同的二维视图, 其中, n大于等于二; 通过基础CNN模型对n个视图进行特征提取, 得到 对应视图的特征图; 通过视图重要性网络判断n 个视图各自对三维物体识别的重要程度, 并根据 重要程度对 特征进行不同程度的加强, 获得视图 增强特征图; 将视图增强特征图使用自注意力机 制进行处理, 得到三维形状描述符; 将三维形状 描述符输入到全 连接网络进行多视角物体识别, 实现三维物体识别。 本发明将有利于三维物体识 别的重要视图进行突出, 同时抑制非重要视图对 三维物体识别的干扰, 提高三维物体识别精准 度。 权利要求书1页 说明书4页 附图2页 CN 114550162 A 2022.05.27 CN 114550162 A 1.一种视图重要性网络与自注意力机制 相结合的三维物体识别方法, 其特 征在于: 步骤1包括: 将三维物体模型从n个视角进行投影, 进而获取到该物体的n个渲染视图V ={v1, v2, ..., vn}, 其中vi为该物体的第i个视图; 步骤2包括: 将渲染视图V={v1, v2, ..., vn}经过基础CNN模型提取出n个视图各自的初 始视觉特征图Z ={z1, z2, ..., zn}, 其中zi为该物体的第i个视图, zi∈RC×H×W, Z∈Rn×C×H×W, 其 中n代表多视图的数量, C代表每个视觉特征图的通道数, H代表每个视觉特征图的高度, W代 表每个视觉特征图的宽度; 步骤3包括: 将n个视图的初始视觉特征图Z={z1, z2, ..., zn}输入到视图重要性网络, 视图重要性网络将对每一个视图进行打 分, 如公式(1), Score=Softmax{f(z1), f(z2), ..., f(zn)},              (1) 公式(1)中, f代表为视图重要性打分的网络层; Softmax函数确保各视图的重要性总和 为1, 避免出现视图重要性分数差异悬殊; 视图的初始特征图将与其重要性相乘, 并与其初 始特征图相加, 如公式(2), pi=zi+Scorei*zi,                            (2) 公式(2)中, zi为该物体的第i个视图的初始视觉特征图, Scor ei表示视图重要性网络对 第i个视图重要性的打分; 每个视图的初始特征图与其重要性相乘, 并与其初始特征图相 加, 得到三维物体n个视图增强特 征图P={p1, p2,…, pn}, pi∈RC×H×W, P∈Rn×C×H×W; 步骤4包括以下子步骤: 步骤4‑1, 将视图增强特征图P={p1, p2, ..., pn}分别输入到三个卷积网络, 生成新的特 征映射Pq, Pk和Pv, Pq, Pk, Pv∈Rn×C×H×W; 将Pk进行转置操作, 并与Pq进行矩阵相乘, 获得特征图 在空间上的关联关系, 如公式(3), 公式(3)中, S代表相似度, i和m为视角的索引, 其中i, m∈[1, n], n为视角数, 由于H与W 数值相等, 因此L2表示单个视角特 征图中所有的空间位置; 步骤4‑2, 将Sim与Pv进行矩阵相乘, 得到跨视角增 强特征图A={a1, a2, ..., aN}, ai∈RC ×H×W, A∈Rn×C×H×W; 通过自注 意力机制, 打破了特征的局部性, 实现了跨视角的非局部特征增 强; 步骤5包括: 将跨视角增强特征图A={a1, a2, ..., aN}通过1*1卷积进行降维, 其中1*1卷积通过跨视 角的方式对特征进行了提取, 降维后的特征将输入到全连接层进行分类, 实现三维物体的 识别。权 利 要 求 书 1/1 页 2 CN 114550162 A 2一种视图重要性网 络与自注意力机制相结 合的三维物体识别 方法 技术领域 [0001]本发明属于计算机视觉技术领域, 涉及一种视图重要性网络与自注意力机制相结 合的三维物体识别方法。 背景技术 [0002]近年来随着室内机器人和计算机视觉的发展, 室内机器人为人类主动在室内找 寻、 抓取物体已成为现实, 其中如何准确识别三 维物体是该领域中基本的问题之一。 随着普 林斯顿大学开源了ModelNet项目, 为研究人员提供一个全面、 清晰的三 维物体模 型集合, 促 使三维物体识别领域涌现出了各种方法。 三维物体识别方法根据输入的数据类型不同, 可 以分为三类: 基于点云的三维物体识别、 基于体素 的三维物体识别以及基于多视图的三维 物体识别。 [0003]基于点云的三维物体识别方法, 通常将数据采集设备收集到的无序点云直接进行 卷积处理, 获得三 维物体的类别信息; 基于体素的三 维物体识别方法, 通常会将无序的点云 进行分块, 形成体素数据后再利用卷积处理的方法获得三维物体的类别信息。 上述两种方 法存在数据采集设备昂贵, 数据维度高, 处理成本高等问题, 难以广泛应用于日常生活中。 而基于多视图的方法由于其数据的易获得且便于处理, 获得了更多的关注, 并由于 ImageNet等大规模数据集用于CNN模型预训练等, 基于多视图的三维物体识别 方法取得了 最优的识别结果, 成为主流方法。 [0004]基于多视图的三维物体识别方法通常将三维物体模型从多个视角进行渲染, 进而 获得待识别三维物体的多视图, 在获取 的多视图上应用卷积网络进行分类。 例如Su等人提 出了基于多视图的三维物体识别方法的开篇之作MVCNN, 其效果优于大多 数基于点云、 体素 的方法。 但是MVCNN方法中使用了最大池化方法, 三维物体的大部分视图信息都被丢失, 因 此有待进一步挖掘研究基于多视图的三维物体识别方法。 发明内容 [0005]本发明针对现有基于多视图的三维物体识别方法的不足加以改进, 提出一种视图 重要性网络与自注意力机制相结合的三 维物体识别方法, 该方法先通过视图重要性网络计 算多视图中每个视图的重要性得分, 根据对应的重要性得分进行不同程度的增强, 视图重 要性网络加强了有益于三 维物体识别视图的表达, 而后通过自注意力机制融合不同视图间 的非局部信息以进一步增强多视图的特征表达。 通过视图重要性网络与自注意力机制相结 合的方式, 三 维物体多视图的特征表达得到了增强, 实验结果表明, 利用增强后的多视图进 行识别分类, 准确率得到 了有效提高, 证明了 本方法具有良好的性能。 [0006]为实现这个目标, 本发明的技术方案是: 步骤1, 将待识别三维物体从n个不同的视 角进行投影获得n个不同的二维视图, 其中, n大于等于二; 步骤2, 通过基础CNN模 型对n个视 图进行特征提取, 得到对应视图的特征图; 步骤3, 通过视图重要性网络输出n个视图各自对说 明 书 1/4 页 3 CN 114550162 A 3

PDF文档 专利 一种视图重要性网络与自注意力机制相结合的三维物体识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视图重要性网络与自注意力机制相结合的三维物体识别方法 第 1 页 专利 一种视图重要性网络与自注意力机制相结合的三维物体识别方法 第 2 页 专利 一种视图重要性网络与自注意力机制相结合的三维物体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。