全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210370621.3 (22)申请日 2022.04.10 (71)申请人 复旦大学 地址 200433 上海市杨 浦区邯郸路2 20号 申请人 之江实验室 (72)发明人 金城 张子墨 吴渊 程乐超  (74)专利代理 机构 上海正旦专利代理有限公司 31200 专利代理师 王洁平 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/82(2022.01) G06V 10/766(2022.01) G06V 40/10(2022.01) G06N 3/04(2006.01) (54)发明名称 基于Transformer的多视角3D姿态估计系统 (57)摘要 本发明属于计算机视觉领域, 具体涉及一种 基于Transformer的多视角3D姿态估计系统。 该 系统按照处理流程先后顺序分为单视角时空 T ra n sf o rm e r特 征 提 取 模 块 和多 视 角 Transformer特征交换模块两个部分。 单视角时 空Transformer特征提取模块对输入的多视角姿 态序列提取不同视角的时空域特征信息; 多视角 Transformer特征交换模块, 将不 同视角的时空 域特征信息两两交换, 然后经过回归头输出最终 的3D姿态估计结果。 本发明能充分利用姿态序列 间的时间上下文和空间关系, 在不同视角间充分 进行特征交换和传输, 提高了3D 姿态估计结果的 准确度。 权利要求书2页 说明书4页 附图2页 CN 114821099 A 2022.07.29 CN 114821099 A 1.一种基于Transformer模块的多视角3D姿态估计系统, 其特 征在于, 其包括若干 单视角时空Transformer特征提取模块和多视角Transformer特征交换模块两个部分; 其中: 单视角时空Transformer特征提取模块, 其对输入的多视角2D骨架序列分别提取不 同 视角的时空域特 征信息; 多视角Transformer特征交换模块, 将不同视角的时空域特征信息两两交换, 然后经过 回归头输出最终的多视角3D姿态估计结果。 2.根据权利要求1所述的多视角3D姿态估计系统, 其特征在于, 单视角时空 Transformer特征提取模块包括姿态和位置嵌入层与嵌套Transformer块两部分, 姿态和位 置嵌入层将关节和姿态分别嵌入到单词token和句子token, 嵌套Transformer块接收来自 姿态和位置 嵌入层的单词token 和句子token 从单词token和句子token中提取和传递 特征; 其中; (1)姿态和位置嵌入层 给定T帧的输入姿态序列 每一帧Pi包含N个关节的2D坐标Ji,k; 使 用Rn来表示维度为n的特征空 间, 则有Ji,k∈R2, i∈1,2, ...,T, k∈1,2,...,N; 为了构造单词 token 和句子token 分别使用线性层 和 作为姿态嵌 入和位置嵌入, 其中dw和ds分别是单词和句子的特征维度; 单词token和句子token的构造过 程用公式(1)和(2)表示: 公式中的 和 分别是单词和句子的输 入嵌入的权值和偏置; 和 分别表示第 i个句子中的所有单词和所有的 句子, ∥表示逐通道级联; 单词和句子的位置嵌入在空间和时间维度上显式地编码索引; (2)嵌套Transformer块 获得单词token 和句子token 后, 对这些token应用一系列的嵌套Transformer块来 提取和传递特征; 在每个嵌套Tr ansformer块的外子块和内子块之间应用线性变换和逐元 素累和, 将 空间关系传递给句子token, 嵌套Transformer块的特征提取和传递过程用公式 (3), (4)和(5)表示: 公式中的 和 分别表示线性变换的权值和偏置, l表示嵌套层号, ∥表示逐通道级联。 3.根据权利要求2所述的多视角3D姿态估计系统, 其特征在于, 单视角时空 Transformer特征提取模块中, 在一系列嵌套Transformer块之后, 使用回归头推理出的单权 利 要 求 书 1/2 页 2 CN 114821099 A 2视角3D姿态序列 作为中间监 督。 4.根据权利要求1所述的多视角3D姿态估计系统, 其特征在于, 多视角Transformer特 征交换模块由多个跨视角Transformer特 征传输子模块CT2组成; 跨视角Transformer特征传输子模块的编码器和解码器各接受一个序列作为输入, 使 用解码器的输出作为最终输出; 编码器和解码器分别由Transformer子块堆叠而成, Transformer子块之间额外添加了引导注意力GA机制, 用来在不同视角间寻找高度相关 的 关键点对; 引导注意力在编码器输出Y∈Rn×d和解码器输入X∈Rn×d之间执行多头注意力 MHA: GA(X,Y)=M HA(FCQ(X),FCK(Y),FCV(Y))            (6) SubBlockG(X,Y)=LN(X+GA(X,Y) )              (7) 编解码器的结构用公式(8)表示: ED(X,Y)=Decoder(X+Encoder(Y) )             (8) 跨视角Transformer特征传输子模块CT2相互并行地引导两个视角之间的特征, 用公式 (9)和公式(10)表示: CT2(X,Y)X=ED(X,Y)                  (9) CT2(X,Y)X=ED(Y,X)                  (10) 多视角Trans former特征交换模块按照两个视角为一组的方 式将所有视角划分为 组, V表示视角数量, 每组都利用CT2模块来传输特征信息; 该模块一共进行V ‑1次分组, 以确保 任意两个视角都进行了特 征交换。 5.根据权利要求1或3或4所述的多视角3D姿态估计系统, 其特征在于, 回归头由全局平 均池化层、 归一 化层和线性变换层组成。权 利 要 求 书 2/2 页 3 CN 114821099 A 3

PDF文档 专利 基于Transformer的多视角3D姿态估计系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer的多视角3D姿态估计系统 第 1 页 专利 基于Transformer的多视角3D姿态估计系统 第 2 页 专利 基于Transformer的多视角3D姿态估计系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。