全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211011962.8 (22)申请日 2022.08.23 (71)申请人 OPPO广东移动通信有限公司 地址 523860 广东省东莞 市长安镇乌沙海 滨路18号 (72)发明人 赵娅琳  (74)专利代理 机构 深圳市联鼎知识产权代理有 限公司 4 4232 专利代理师 刘抗美 (51)Int.Cl. G10L 13/02(2013.01) G10L 25/24(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 17/00(2006.01) (54)发明名称 面部动作视频生 成方法及装置、 可读介质和 电子设备 (57)摘要 本公开提供一种面部动作视频生成方法及 装置、 可读介质和电子设备, 涉及人工智能技术 领域。 该方法包括: 获取驱动语音数据; 将所述驱 动语音数据输入到面部动作预测模 型中, 得到面 部动作驱动参数, 所述面部动作预测模型是通过 预训练过程训练得到的; 根据所述面部动作驱动 参数驱动预设虚拟对象 的面部模 型, 生成所述驱 动语音数据对应的面部动作视频。 本公开能够根 据输入的驱动语音数据直接生 成面部动作视频, 提高面部动作视频中面部表情的准确性 以及平 滑性。 权利要求书2页 说明书11页 附图4页 CN 115376482 A 2022.11.22 CN 115376482 A 1.一种面部动作视频生成方法, 其特 征在于, 包括: 获取驱动语音数据; 将所述驱动语音数据输入到面部动作预测模型中, 得到面部动作驱动参数, 所述面部 动作预测模型 是通过预训练过程训练得到的; 根据所述面部动作驱动 参数驱动预设虚拟对象的面部模型, 生成所述驱动语音数据对 应的面部动作视频。 2.根据权利要求1所述的方法, 其特 征在于, 所述预训练过程包括: 获取训练数据, 所述训练数据包括面部动作驱动参数以及所述面部动作驱动参数对应 的音频序列; 对所述音频序列进行 预处理得到音频 特征; 通过所述面部动作驱动参数以及所述音频特征对初始面部动作预测模型进行模型训 练, 直到所述初始面部动作预测模型的模型损失收敛, 得到训练完成的面部动作预测模型。 3.根据权利要求2所述的方法, 其特 征在于, 所述获取训练数据, 包括: 采集原始数据, 所述原始数据包括演示对象在阅读测试文本时的视频序列以及所述演 示对象在阅读测试文本时的面部深度信息; 根据所述视频序列中视频画面以及所述 面部深度信息确定面部动作驱动参数; 从所述视频序列中提取 所述面部动作驱动参数对应的音频序列。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述音频序列进行预处理得到音频 特征, 包括: 确定所述音频序列的梅尔频率倒谱系数 特征; 对所述梅尔频率倒谱系数 特征进行一阶求 导, 得到第一音频序列特 征; 对所述梅尔频率倒谱系数 特征进行二阶求 导, 得到第二音频序列特 征; 基于所述梅尔频率倒谱系数特征、 所述第 一音频序列 特征和所述第 二音频序列特征构 建音频特征。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述音频序列进行预处理得到音频 特征, 包括: 确定所述 面部动作驱动参数的帧率数据; 根据所述帧率数据确定采样滑动窗口, 并根据所述采样滑动窗口对所述音频特征进行 采样, 以实现所述音频 特征与所述 面部动作驱动参数的对齐。 6.根据权利要求1或2所述的方法, 其特征在于, 所述面部动作预测模型包括音频编码 网络、 音频编码网络全连接层、 丢弃层以及长短期记 忆网络。 7.根据权利要求1所述的方法, 其特征在于, 所述面部动作驱动参数包括混合表情系 数。 8.一种面部动作视频生成装置, 其特 征在于, 包括: 语音数据获取模块, 用于获取驱动语音数据; 面部动作驱动参数预测模块, 用于将所述驱动语音数据输入到面部动作预测模型中, 得到面部动作驱动参数, 所述 面部动作预测模型 是通过预训练过程训练得到的; 面部动作视频生成模块, 用于根据 所述面部动作驱动 参数驱动预设虚拟对象的面部模 型, 生成所述驱动语音数据对应的面部动作视频。权 利 要 求 书 1/2 页 2 CN 115376482 A 29.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时实现如权利要求1至7中任一项所述的方法。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的 方法。权 利 要 求 书 2/2 页 3 CN 115376482 A 3

PDF文档 专利 面部动作视频生成方法及装置、可读介质和电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面部动作视频生成方法及装置、可读介质和电子设备 第 1 页 专利 面部动作视频生成方法及装置、可读介质和电子设备 第 2 页 专利 面部动作视频生成方法及装置、可读介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:44:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。