全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221089170 3.2 (22)申请日 2022.07.27 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 鸿城拓展大厦10、 1 1层 (72)发明人 史培培 周勇  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 马敬 项京 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G10L 25/57(2013.01)G10L 25/27(2013.01) G10L 25/03(2013.01) (54)发明名称 一种视频生成方法、 装置、 电子设备及存储 介质 (57)摘要 本发明实施例提供了一种视频生 成方法、 装 置、 电子设备及存储介质, 将待处理视频中包含 目标对象的面部图像的目标视频帧输入至预先 训练的面部识别模型, 确定该目标视频帧中目标 对象的面部特征, 作为目标面部特征; 基于各目 标视频帧中的目标面部特征, 确定待处理视频的 表情特征向量; 针对每一待处理音频, 基于预先 训练的节拍点预测模型对该待处理音频进行处 理, 得到该待处理音频的目标节拍特征向量; 计 算表情特征向量与目标节拍特征向量的相似度, 作为待处理视频与该待处理音频的匹配度; 对待 处理视频与各待处理音频中的目标音频进行合 成处理, 得到目标视频; 目标音频与待处理视频 的匹配度最大。 基于此, 可 以提高视频的生成效 率。 权利要求书3页 说明书17页 附图5页 CN 115294495 A 2022.11.04 CN 115294495 A 1.一种视频生成方法, 其特 征在于, 所述方法包括: 将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别 模型, 确定该目标视频帧中所述 目标对象的面部特征, 作为目标面部特征; 其中, 所述面部 识别模型为基于样本视频帧, 以及表示所述样本视频帧中样本对象的面部特征的特征标签 进行训练得到的; 基于各目标视频帧中的目标面部特征, 确定所述待处理视频的表情特征向量; 其中, 所 述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应; 一个元素表示: 对应 的视频帧中所述目标对 象的表情特征; 所述表情特征向量表示: 所述待处理视频中所述 目 标对象的表情特 征随时间变化的幅度; 针对每一待处理音频, 基于预先训练的节拍点预测模型对该待处理音频进行处理, 得 到该待处理音频的节拍特征向量, 作为目标节拍特征向量; 其中, 所述目标节拍特征向量中 的元素与该待处理音频中的音频帧一一对应, 一个元素表示: 对应的音 频帧是否为节拍点; 所述目标节拍特征向量表示: 该待处理音频 的节拍随时间变化的幅度; 所述节拍点预测模 型为基于样本音频, 以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进 行训练得到的; 计算所述表情特征向量与 所述目标节拍特征向量的相似度, 作为所述待处理视频与 该 待处理音频的匹配度; 对所述待处理视频与各待处理音频中的目标音频进行合成处理, 得到目标视频; 其中, 所述目标音频与所述待处 理视频的匹配度最大。 2.根据权利要求1所述的方法, 其特征在于, 所述目标面部特征包括所述目标对象的面 部中至少一个 器官的器官状态; 所述基于各目标视频帧中的目标面部特征, 确定所述待处理视频的表情特征向量, 包 括: 针对每一目标视频帧, 获取表示该目标视频帧中所述目标对象的面部中至少一个器官 的器官状态的器官状态值; 基于获取到的器官状态值, 确定该目标视频帧对应的表情特 征值; 基于各目标视频帧各自对应的表情特征值, 生成所述待处理视频的表情特征向量; 其 中, 所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数 值。 3.根据权利要求2所述的方法, 其特征在于, 所述基于获取到的器官状态值, 确定该目 标视频帧对应的表情特 征值, 包括: 在所述器官状态值为多个的情况下, 计算各器官状态值的加权和, 作为该目标视频帧 对应的表情特 征值。 4.根据权利要求2所述的方法, 其特征在于, 在所述针对每一待处理音频, 基于预先训 练的节拍点预测模型对该待处理音频进行处理, 得到该待处理音频的节拍特征向量, 作为 目标节拍特 征向量之前, 所述方法还 包括: 针对每一目标视频帧, 在预设的器官状态与情绪标签的对应关系中, 确定该目标视频 帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签, 作为该目标视频帧对应 的情绪标签;权 利 要 求 书 1/3 页 2 CN 115294495 A 2基于各目标视频帧各自对应的情绪标签, 确定所述待处 理视频的情绪标签; 针对每一预设音频, 计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似 度; 基于各预设音频确定待处理音频, 其中, 所述待处理音频的情绪标签与所述待处理视 频的情绪标签的相似度大于相似度阈值。 5.根据权利要求4所述的方法, 其特征在于, 所述基于各预设音频确定待处理音频, 包 括: 从各预设音频中, 确定对应的情绪标签与 所述待处理视频的情绪标签的相似度 大于所 述相似度阈值的预设音频, 作为备选音频; 针对每一备选音频, 如果该备选音频的时长与所述待处理视频的时长相同, 确定该备 选音频为待处理音频; 如果该备选音频 的时长大于所述待处理视频的时长, 从该备选音频 中提取与所述待处 理视频的时长相同的音频片段, 得到待处 理音频。 6.根据权利要求1所述的方法, 其特征在于, 在所述将待处理视频中包含目标对象的面 部图像的目标视频帧输入至预先训练的面部识别模型, 确定该目标视频帧中所述目标对象 的面部特 征, 作为目标面部特 征之前, 所述方法还 包括: 对待处理视频中的各视频帧进行目标检测, 得到包含所述目标对象的面部图像的视频 帧, 作为目标视频帧; 或者, 对待处理视频中的各视频帧进行目标检测, 得到包含所述目标对象的面部图像的视频 帧; 对所述待处理视频中包含所述 目标对象的面部图像的视频帧进行采样, 得到目标视频 帧。 7.根据权利要求1所述的方法, 其特 征在于, 所述 面部识别模型的训练过程包括: 获取包含所述样本对象的面部图像的样本视频帧, 以及表示所述样本视频帧中所述样 本对象的面部特 征的特征标签; 将所述样本视频帧输入至初始结构的面部识别模型, 得到所述样本视频帧中所述样本 对象的面部特 征, 作为预测面部特 征; 计算表示所述特 征标签与所述预测面部特 征的差异的第一损失函数值; 基于所述第 一损失函数值对所述初始结构的面部识别模型的模型参数进行调整, 直至 达到第一预设收敛 条件, 得到训练好的面部识别模型。 8.根据权利要求1所述的方法, 其特 征在于, 所述节拍点预测模型的训练过程包括: 获取样本音频, 以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签; 基于初始结构的节拍点预测模型对所述样本音频进行处理, 得到包含所述样本音频中 的各音频帧是否为节拍点的概 率的预测节拍标签; 计算表示所述样本节拍标签与所述预测节拍标签的差异的第二损失函数值; 基于所述第 二损失函数值对所述初始结构的节拍点预测模型的模型参数进行调 整, 直 至达到第二预设收敛 条件, 得到训练好的节拍点预测模型。 9.一种视频生成装置, 其特 征在于, 所述装置包括: 面部特征预测模块, 用于将待处理视频中包含目标对象的面部图像的目标视频帧输入 至预先训练的面部识别模型, 确定该目标视频帧中所述 目标对象的面部特征, 作为 目标面权 利 要 求 书 2/3 页 3 CN 115294495 A 3

PDF文档 专利 一种视频生成方法、装置、电子设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频生成方法、装置、电子设备及存储介质 第 1 页 专利 一种视频生成方法、装置、电子设备及存储介质 第 2 页 专利 一种视频生成方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:35:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。