全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210558258.8 (22)申请日 2022.05.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 熊蓉 张浩东 陈颖澔 吴禧洋  全泉  (74)专利代理 机构 杭州中成专利事务所有限公 司 33212 专利代理师 李亦慈 唐银益 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/34(2022.01) G06V 10/44(2022.01) G06V 10/75(2022.01)G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称 一种基于视频输入的实时手语动作迁移方 法及装置 (57)摘要 本发明公开了一种基于视频输入的实时手 语动作迁移方法及装置, 该手语动作迁移系统, 能够基于RGB视频输入对手语语句或单词进行实 时迁移, 生成机器人可执行的动作。 整个系统由 数据采集模块、 人体位姿估计模块、 数据处理模 块、 手语动作迁移模块和机器人执行模块组成, 其中手语动作迁移模块采用隐空间优化算法, 在 图卷积神经网络构建的隐空间上对机器人动作 进行优化, 生成满足机器人运动学约束并具有相 似性的动作。 本发明可以将人演示的手语动作实 时转换为机器人动作, 帮助机器人获得手语技 能, 构建听力障碍人士和普通人之间沟通的桥 梁。 本发明实用性强, 稳定性高, 便 于推广应用。 权利要求书3页 说明书6页 附图4页 CN 114937310 A 2022.08.23 CN 114937310 A 1.一种基于 视频输入的实时手 语动作迁移方法, 其特 征在于 获取RGB视频, 通过 人体位姿估计算法获得关节位置和姿态数据; 使用滤波、 缩放、 旋转、 统一 坐标系进行 预处理得到关节数据; 获取关节数据通过编码器得到动作特 征; 获取动作特 征通过解码器得到 机器人关节角数据; 获取关节角数据通过正 运动学解 算关节位置, 并实时发送至 机器人执行动作; 所述的编码器和解码器都是图神经网络 。 2.如权利要求1所述的手语动作迁移方法, 其特征在于, 所述的人体位姿估计算法是从 RGB视频中实时估计人体 手臂和手指的关节位置和姿态数据。 3.如权利要求1所述的手语动作迁移方法, 其特征在于, 所述的图神经网络通过损失函 数进行训练, 损失函数用于鼓励机器人运动尽可能与人类的演示相似和平滑, 并且不发生 碰撞, 并由六项 组成: 末端损失Lee、 朝向损失Lori、 肘部损失Lelb、 手指损失Lfin、 碰撞损失Lcol 和平滑性损失Lsmo, 其中λee、 λori、 λelb、 λfin、 λcol和 λsmo是它们各自的权 重; L= λeeLee+λoriLori+λelbLelb+λfinLfin+λcolLcol+λsmoLsmo 末端损失Lee鼓励机器人与人类演示的末端位置相匹配, 并比较归一化的末端位置的差 异, 使用均方误差, 归一化系数是从肩部到手腕的长度, 设pj和lj为末端j的位置和归一化系 数, 和 为人类演示的相应 变量, Lee被定义为: 朝向损失Lori是通过比较末端的朝向差异来计算的, 同时也使用均方损失, 设Rj和 分 别为机器人和人类的末端的旋转矩阵, Lori被定义为: 肘部损失Lelb鼓励其它关节的运动与人类演示相似, 是通过比较从肘部到手腕的归一 化向量来计算的, 归一化系数是从肘部到腕部的长度, 设 和lwe为机器人手臂j 的手腕位置、 肘部位置和归一化系数, 而 和 为人类演示的相应变量, Lelb的 计算方法是: 手指损失Lfin鼓励机器人与人类的手指运动相匹配, 手指动作是手语的一个重要组成 部分, 比较了从掌指关节到指尖的向量, 通过手指长度归一化, 设 和ltm为指尖位 置、 掌指关节位置和机器人手指j的归一化系数, 而 和 为人类演示的相应变 量, Lfin的定义为:权 利 要 求 书 1/3 页 2 CN 114937310 A 2碰撞损失Lcol是用来惩罚发生碰撞的机器人运动, 将机器人每个关节建模为胶囊, 并计 算胶囊对之间的距离, 若这个距离小于不 发生碰撞的最小距离, 则计算损失, 设di, j为胶囊i 和胶囊j之间的距离, dmin为无碰撞的阈值, Lcol被定义为: 平滑性损失Lsmo用于鼓励机器人生成连续平滑的动作, 若rt为第t帧的机器人关节角, rt+1为第t+1帧的机器人关节角, 如果相邻两帧的关节角相差很大就进 行惩罚, 那么Lsmo的定 义为: 4.如权利要求1所述的手语动作迁移方法, 其特征在于, 所述的图神经网络训练完成后 加载训练好的模型参数, 直接通过前向传播输出机器人可执行的关节角, 能够保证手语动 作迁移的实时性, 所述的图神经网络能够同时对双臂和双手进行实时动作迁移, 并使用不 同的网络 权重参数。 5.一种基于 视频输入的实时手 语动作迁移装置, 其特 征在于, 所述的装置包括: 人体位姿估计模块, 获取RGB视频, 通过 人体位姿估计算法获得关节位置和姿态数据; 预处理模块, 用于使用滤波、 缩放、 旋转、 统一 坐标系进行 预处理得到关节数据; 图编码器网络模块, 用于获取关节数据通过编码器得到动作特 征; 图解码器网络模块, 用于获取动作特 征通过解码器得到 机器人关节角数据; 正运动学模块, 用于获取关节角数据通过正运动学解算关节位置, 并实时发送至机器 人执行动作; 机器人执行模块, 用于执 行手语动作迁移得到的机器人动作。 人体位姿估计模块的输出与 数据处理模块相连, 数据处理模块的输出分别与图编码器 网络模块相连, 图编码器网络模块的输出与图解码器网络模块相连, 图解码器网络模块的 输出与可微分正 运动学模块相连, 正 运动学模块的输出与机器人 执行模块相连。 6.如权利要求5所述的手语动作迁移系统, 其特征在于, 所述的图编码器网络模块以人 演示的手语动作作为输入, 通过三层通道数分别为16、 32、 64的图卷积, 提取人体手语动作 特征。 7.如权利要求5所述的手语动作迁移系统, 其特征在于, 所述的图解码器网络模块将人 体手语动作特征映射为机器人关节角运动, 通过三层通道数分别为64、 32、 1的图卷积和非 线性激活函数, 生成满足机器人关节角上 下限约束的关节角度。 8.如权利要求5或6或7所述的手语动作迁移系统, 其特征在于, 所述的图编码器网络模 块和图解码器网络模块都由图卷积神经网络组成, 将人体骨架和机器人结构建模成图, 以 更好地利用人体和机器人 结构的拓扑信息 。 9.如权利要求5所述的手语动作迁移系统, 其特征在于, 所述的正运动学模块根据机器 人关节配置参数, 将关节角度转 化为关节位置, 并且整个过程计算梯度的。权 利 要 求 书 2/3 页 3 CN 114937310 A 3

PDF文档 专利 一种基于视频输入的实时手语动作迁移方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视频输入的实时手语动作迁移方法及装置 第 1 页 专利 一种基于视频输入的实时手语动作迁移方法及装置 第 2 页 专利 一种基于视频输入的实时手语动作迁移方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。