(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210370621.3
(22)申请日 2022.04.10
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
申请人 之江实验室
(72)发明人 金城 张子墨 吴渊 程乐超
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 王洁平
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06V 10/766(2022.01)
G06V 40/10(2022.01)
G06N 3/04(2006.01)
(54)发明名称
基于Transformer的多视角3D姿态估计系统
(57)摘要
本发明属于计算机视觉领域, 具体涉及一种
基于Transformer的多视角3D姿态估计系统。 该
系统按照处理流程先后顺序分为单视角时空
T ra n sf o rm e r特 征 提 取 模 块 和多 视 角
Transformer特征交换模块两个部分。 单视角时
空Transformer特征提取模块对输入的多视角姿
态序列提取不同视角的时空域特征信息; 多视角
Transformer特征交换模块, 将不 同视角的时空
域特征信息两两交换, 然后经过回归头输出最终
的3D姿态估计结果。 本发明能充分利用姿态序列
间的时间上下文和空间关系, 在不同视角间充分
进行特征交换和传输, 提高了3D 姿态估计结果的
准确度。
权利要求书2页 说明书4页 附图2页
CN 114821099 A
2022.07.29
CN 114821099 A
1.一种基于Transformer模块的多视角3D姿态估计系统, 其特 征在于, 其包括若干
单视角时空Transformer特征提取模块和多视角Transformer特征交换模块两个部分;
其中:
单视角时空Transformer特征提取模块, 其对输入的多视角2D骨架序列分别提取不 同
视角的时空域特 征信息;
多视角Transformer特征交换模块, 将不同视角的时空域特征信息两两交换, 然后经过
回归头输出最终的多视角3D姿态估计结果。
2.根据权利要求1所述的多视角3D姿态估计系统, 其特征在于, 单视角时空
Transformer特征提取模块包括姿态和位置嵌入层与嵌套Transformer块两部分, 姿态和位
置嵌入层将关节和姿态分别嵌入到单词token和句子token, 嵌套Transformer块接收来自
姿态和位置 嵌入层的单词token
和句子token
从单词token和句子token中提取和传递
特征; 其中;
(1)姿态和位置嵌入层
给定T帧的输入姿态序列
每一帧Pi包含N个关节的2D坐标Ji,k; 使
用Rn来表示维度为n的特征空 间, 则有Ji,k∈R2, i∈1,2, ...,T, k∈1,2,...,N; 为了构造单词
token
和句子token
分别使用线性层
和
作为姿态嵌
入和位置嵌入, 其中dw和ds分别是单词和句子的特征维度; 单词token和句子token的构造过
程用公式(1)和(2)表示:
公式中的
和
分别是单词和句子的输
入嵌入的权值和偏置;
和
分别表示第 i个句子中的所有单词和所有的
句子, ∥表示逐通道级联; 单词和句子的位置嵌入在空间和时间维度上显式地编码索引;
(2)嵌套Transformer块
获得单词token
和句子token
后, 对这些token应用一系列的嵌套Transformer块来
提取和传递特征; 在每个嵌套Tr ansformer块的外子块和内子块之间应用线性变换和逐元
素累和, 将 空间关系传递给句子token, 嵌套Transformer块的特征提取和传递过程用公式
(3), (4)和(5)表示:
公式中的
和
分别表示线性变换的权值和偏置, l表示嵌套层号,
∥表示逐通道级联。
3.根据权利要求2所述的多视角3D姿态估计系统, 其特征在于, 单视角时空
Transformer特征提取模块中, 在一系列嵌套Transformer块之后, 使用回归头推理出的单权 利 要 求 书 1/2 页
2
CN 114821099 A
2视角3D姿态序列 作为中间监 督。
4.根据权利要求1所述的多视角3D姿态估计系统, 其特征在于, 多视角Transformer特
征交换模块由多个跨视角Transformer特 征传输子模块CT2组成;
跨视角Transformer特征传输子模块的编码器和解码器各接受一个序列作为输入, 使
用解码器的输出作为最终输出; 编码器和解码器分别由Transformer子块堆叠而成,
Transformer子块之间额外添加了引导注意力GA机制, 用来在不同视角间寻找高度相关 的
关键点对; 引导注意力在编码器输出Y∈Rn×d和解码器输入X∈Rn×d之间执行多头注意力
MHA:
GA(X,Y)=M HA(FCQ(X),FCK(Y),FCV(Y)) (6)
SubBlockG(X,Y)=LN(X+GA(X,Y) ) (7)
编解码器的结构用公式(8)表示:
ED(X,Y)=Decoder(X+Encoder(Y) ) (8)
跨视角Transformer特征传输子模块CT2相互并行地引导两个视角之间的特征, 用公式
(9)和公式(10)表示:
CT2(X,Y)X=ED(X,Y) (9)
CT2(X,Y)X=ED(Y,X) (10)
多视角Trans former特征交换模块按照两个视角为一组的方 式将所有视角划分为
组,
V表示视角数量, 每组都利用CT2模块来传输特征信息; 该模块一共进行V ‑1次分组, 以确保
任意两个视角都进行了特 征交换。
5.根据权利要求1或3或4所述的多视角3D姿态估计系统, 其特征在于, 回归头由全局平
均池化层、 归一 化层和线性变换层组成。权 利 要 求 书 2/2 页
3
CN 114821099 A
3
专利 基于Transformer的多视角3D姿态估计系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:11上传分享