(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211078771.3
(22)申请日 2022.09.05
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市杭州经济技 术
开发区白杨街道 2号大街1 158号
(72)发明人 贾刚勇 陈宇星 顾人舒 饶欢乐
黄瓯涵 徐宏
(74)专利代理 机构 浙江永鼎律师事务所 3 3233
专利代理师 周希良
(51)Int.Cl.
G06F 17/16(2006.01)
G06F 17/18(2006.01)
G06V 40/10(2022.01)
G06T 17/00(2006.01)
G06T 19/00(2011.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基 于 体 素 特 征 和 稀 疏 S i n k h o r n
Transformer的3D姿态估计方法
(57)摘要
本发明涉及基于体素特征和稀疏Sinkhorn
Transformer的3D姿态估计方法, 将三维的体素
特征分解成Transformer可处理的一维体素序
列, 然后把序列按同样的大小分为多个组; 计算
出每个体 素元素的Key、 Value和Query, 计算每组
的平均Key、 平均Value和平均Query, 计算组与组
之间的相关度; 按照相关度计算出转换矩阵; 对
同一个组内的元素和其对应相关组之间的元素
进行自注 意力操作; 把一维体素序列还原回三维
空间, 并与CNN提取的特征进度融合, 得出最终的
体素特征, 把每个 关节在体素中的概率与体素在
三维空间中的坐标进行加权平均得到关节的估
计位置。 本发明的估计精度高。
权利要求书3页 说明书6页 附图2页
CN 115391733 A
2022.11.25
CN 115391733 A
1.基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方法, 其特征在于, 包括
以下步骤:
S1、 将三维的体素特征分解成Transformer可处理的一维体素序列, 然后把序列按同样
的大小分为多个组;
S2、 在自注意力机制中, 计算出每个体素元素的键值向量Key、 值向量Value和查询向量
Query, 然后计算每组的平均K ey、 平均Value和平均Query, 并计算组与组之间的相关度;
S3、 按照相关度计算出转换矩阵, 以组为单位对原序列进行重新排序, 使得相关的两个
组被分配在原序列和新序列中同样的位置;
S4、 对同一个组内的元 素和其对应相关组之间的元 素进行自注意力操作;
S5、 把完成 自注意力操作的一维体素序列还原回三维空间, 并与CNN提取的特征进度融
合, 得出最终的体素特征, 最后把每个关节在体素中的概率与体素在三维空间中的坐标进
行加权平均得到关节的预测位置 。
2.如权利要求1所述的基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方
法, 其特征在于, 所述 步骤S1具体包括以下步骤:
S11、 获取由某一个时刻 下由各个相机所构建的体素空间特征, 设一个拥有h ×w×l个n
维度向量的3D网格为V={v0,0,0,…,vh,w,l}∈Rn×h×w×l, 其中, vx,y,z代表了一个坐标为(x,y,
z)的网格向量, 此时的维度n 等于数据集中定义的人体关节 节点个数;
S12、 把V送入一个dimin=n,dimout=e的3D卷积网络中会得到一个提取了更多特征的体
素网格, 记为
接着每个ve会加上长度同样为e的位置特征
嵌入, 完成对初始输入的特 征嵌入过程;
S13、 把有四个维度h, w, l,e的网格向量转化为二维的序列S={s0,…sL}∈Re×L,映射关
系为
对于长度为L的输入序列S, 会以每B个元素为一个块的方式,
划分为Nb个组; 记分割函数为θ( ·), Bins=θ(S), Bins代表了分割出来的所有组, Bins=
{b1,…,bNb},
故一个块内包 含了在三维空间内相邻的体素 特征。
3.如权利要求2所述的基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方
法, 其特征在于, 所述 步骤S2具体包括:
每个bi块中每个元素分别乘以三个不同的线形变换矩阵WQ,WK,WV, 得到三个新的矩阵
分别代表每个块中各个元 素的Query, K ey, Value的集 合;
计算每个块的Query, K ey平均值
上述点乘用于估计两个组之间的相关程度, 计算所有组的
复杂权 利 要 求 书 1/3 页
2
CN 115391733 A
2度, 从输入序列长度l的二次方降低为
得到注意力矩阵为:
其中, ax,y表示组x与组y的之间的相关度。
4.如权利要求3所述的基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方
法, 其特征在于, 所述 步骤S3具体包括:
对于矩阵R进行Sinkhorn规范化过程, Nk代表用户自定义的迭代次数, 此过程用公式表
达如下:
S0=exp(R)
Sk=Fc(Fr(Sk‑1(R)))
每次迭代的操作由以下两步组成:
其中, Fr,Fc表示行和列的正则化 函数, exp是以自然常数 e为底的指数函数;
经过Sinkhorn操作之后得到的矩阵将会被用来重新对块序列进行排序, 即对初始块序
列计算出的
序列进行重排序, 从而得到新的
序列。
5.如权利要求4所述的基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方
法, 其特征在于, 所述 步骤S4具体包括:
对两个序列的Query, Key, Value分别进行以组为单位的拼接, 得到bin容量为2b个元素
的Query, K ey, Value;
设当前有N个关注头, 则自注意力机制将对其query, key, value参数拆分成N份, 分别 送
入N个关注头, 进行缩放 点乘注意力操作, 最后将结果 拼接在一 起;
自注意力机制的计算公式为:
6.如权利要求5所述的基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方
法, 其特征在于, 所述 步骤S5具体包括:
经过了Sinkhorn稀疏注意力Trans former网络之后, 将会得到与输入S={s0,…sL}∈Re
×L, 相同维度的输出, 每 个元素都是一个e维度的向量;
把序列再还原成回三维空间, 加上来自3D卷积网络的输出, 设3D卷积网络的输出维度
dimout=c, 此时每 个体素元素的维度会变为e+c维度;
之后经过最后一层3D卷积 网络, dimin=e+c,dimout=n, n是人体关节点个数, 将高维的
向量转化为每个关节在当前体素空间存在的概 率;权 利 要 求 书 2/3 页
3
CN 115391733 A
3
专利 基于体素特征和稀疏Sinkhorn Transformer的3D姿态估计方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:43:57上传分享