全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210671530.3 (22)申请日 2022.06.15 (71)申请人 上海理工大 学 地址 200093 上海市杨 浦区军工路516号 (72)发明人 陈罡 王文举 周浩然 王晓琳  (74)专利代理 机构 上海德昭知识产权代理有限 公司 31204 专利代理师 卢泓宇 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 基于多视图Pooling Transformer的三维对 象识别方法 (57)摘要 本 发 明 提 供 一 种 基 于 多 视 图 PoolingTran sformer的三维对象识别方法, 首先 基于待测对象的多视图的信息熵构造得到了最 佳视图集, 从而减少了多视图的冗余性, 提高了 网络模型进行识别的精准度。 其次, 采用ResNet 网络和Embedding网络一次性对所有视图进行特 征信息提取, 获取了最佳视图集的多视图低级局 部特征token序列, 从而使之能够输入到 PoolingTransformer完成并行化训练。 然后, 通 过PoolingTransformer将所述多视图低级局部 特征token序列的局部视图信息token序列, 实现 分别从全局和局部聚合多视图低级局部特征 token序列为一个紧凑而单一的3D全局描述符。 最后, 由分类器识别该3D 全局描述符得到待测对 象的识别结果。 该方法能够高效、 准确地捕获多 个视图之间的相关特征信息, 极大地提高了网络 模型的识别精度和训练效率。 权利要求书3页 说明书17页 附图4页 CN 114972794 A 2022.08.30 CN 114972794 A 1.一种基于多视图Pooling  Transformer的三维对象识别方法, 其特征在于, 包括以下 步骤: 步骤S1, 构建Multi ‑view Pooling Transformer网络模型, 该模型具有最佳视图集获 取模块、 低级局部特征token序列生成模块、 基于Pooling  Transformer的全局描述符生成 模块以及分类 器; 步骤S2, 将待测对 象输入至所述Multi ‑view Pooling Transformer网络模型, 通过所 述最佳视图集获取模块获取对应的多视图, 并根据所述多视图的信息熵构建最佳视图集; 步骤S3, 由所述低级局部特征token序列生成模块提取所述最佳视图集的多视图低级 局部特征, 并基于该多视图低级局部特 征生成对应的多视图低级局部特 征token序列; 步骤S4, 所述全局描述符生成模块将所述多视图低级局部特征token序列的局部视图 信息token序列, 与其全局特 征信息序列聚合 生成所述待测对象的3D全局描述符; 步骤S5, 所述分类器将所述3D全局描述符作为输入进行三维对象识别, 从而得到所述 待测对象的识别结果。 2.根据权利要求1所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述 步骤S2包括以下子步骤: 步骤S2‑1, 对所述待测对象按照正十二 面体视点获取对应的多个2D视图; 步骤S2‑2, 计算每 个所述2D视图的信息熵, 并按信息熵值的高低进行排序; 步骤S2‑3, 选取信息熵排名前n 位的视图作为所述 最佳视图集, 从而减少冗余的视图。 3.根据权利要求2所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述信息熵的计算公式为: Pa,b=f(a,b)/W ·H 式中, Hi表示第i个视图vi的信息熵, (a,b)为一个二元组, a表示某个滑动窗 口内中心的 灰度值, b为该窗口内除开中心像素的灰度均值; Pa,b表示(a,b)在整个视图vi中出现的概 率; f(a,b)表示(a,b)这个二元组在整个视图vi中出现的次数; W、 H表示视图vi的宽高。 4.根据权利要求1所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述低级局部特 征token序列生成模块具有ResNet网络和Embed ding网络, 所述步骤S3包括以下子步骤: 步骤S3‑1, 由所述ResNet网络提取 所述最佳视图集的多视图低级局部特 征; 步骤S3‑2, 基于所述Embedding网络生成所述多视图低级局部特征的局部视图token序 列: [x1,...xi...,xn]=Emb{Res[v1,...vi...,vn]} 式中, [vi,…vi…,vn]是所述最佳视图集, vi表示其中的一个视图; 步骤S3‑3, 将一个初始化class  tokenxclass添加到所述局部视图token序列的首部, 并 将它们分别与位置编码Epos进行拼接, 最终生成所述多视图低级局部特 征token序列:权 利 要 求 书 1/3 页 2 CN 114972794 A 2式中, X0是多视图低级局部特征token序列, xclass是一个与局部视图token序列的维度 相匹配的随机初始化 值, Epos用来保存来自不同视点xi的位置信息 。 5.根据权利要求4所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述全局描述符生成模块包括基于Transformer的全局特征信息生成子模块和 基于Pooling的局部 视图信息to ken序列聚合子模块, 所述基于Transformer的全局特征信息生成子模块具有Layer  Normalization网络、 Multi‑Head Multi‑View Attention网络、 多层感知机网络以及残差连接 。 6.根据权利要求5所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述 步骤S4包括以下子步骤: 步骤S4‑1, 所述LayerNormalization网络对所述多视图低级局部特征token序列进行 归一化处理: 步骤S4‑2, 所述Multi ‑Head Multi‑View Attention网络将 归一化后的token序列 通 过线性变换完成M HMVA计算, 生成to ken序列XMHMVA; 步骤S4‑3, 对token序列XMHMVA使用残差连接得到token序列X1从而避免梯度消失, 再将X1 输入至所述 Layer Normalization网络进行归一 化处理后输入至所述多层感知机网络; 步骤S4‑4, 将多层感知机网络的输出结果与X1进行残差连接, 得到所述局部视图信息 token序列: 其中, 所述局部视图信息token序列由全局class   token 和局部视图信息token序列 组成, 其中全局c lass token 保存了 局部视图token序列的全局特 征信息, 即 步骤S4‑5, 所述基于Poolin g的局部视图信息token序列聚合子模块将所述局部视图信 息token序列 进行池化处理得到单个最佳局部视图信息token, 再将该最佳局 部视图信息t oken与全局class  token 进行拼接聚合, 最 终生成对应的3D全局描述符Y: 7.根据权利要求6所述的基于多视图Pooling  Transformer的三维对象识别方法, 其特 征在于: 其中, 所述Multi ‑Head Multi‑View Attention网络由多个Multi ‑View Attention组 成, 所述MHMVA计算是进行多个并行化的Multi ‑View Attention计算: 步骤S4‑2‑1, 将经过归一化处理的 先通过线性变换生成Query、 K ey、 Value三个向量:权 利 要 求 书 2/3 页 3 CN 114972794 A 3

PDF文档 专利 基于多视图Pooling Transformer的三维对象识别方法

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多视图Pooling Transformer的三维对象识别方法 第 1 页 专利 基于多视图Pooling Transformer的三维对象识别方法 第 2 页 专利 基于多视图Pooling Transformer的三维对象识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。