全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210849081.7 (22)申请日 2022.07.19 (71)申请人 泰弗思科技 (安徽) 有限公司 地址 230000 安徽省合肥市高新区玉 兰大 道767号机电产业园5 栋2层 (72)发明人 张根波  (74)专利代理 机构 合肥律众知识产权代理有限 公司 34147 专利代理师 殷娟 (51)Int.Cl. H04N 7/18(2006.01) H04M 11/04(2006.01) (54)发明名称 一种用于车载乘客报警的音视频合成方法 (57)摘要 本发明涉及音视频合成, 具体涉及一种用于 车载乘客报警的音视频合 成方法, 获取乘客报警 时的多帧人物场景图像, 并获取报警乘客的多帧 深度图像; 根据人物场景图像和深度图像, 提取 报警乘客在每帧人物场景图像中的感兴趣区域; 获取乘客报警时的音 频数据, 并根据音频数据生 成对应的文字信息; 基于连续帧人物场景图像中 的感兴趣区域, 获取报警乘客的口型变化特征, 确定对应的文字信息及音 频数据; 将人物场景图 像、 音频数据和文字信息合 成具有字幕的音视频 文件; 本发 明提供的技术方案能够有效克服现有 技术所存在的无法对乘客报警时的音频数据、 视 频数据进行精确合成的缺陷。 权利要求书2页 说明书4页 附图2页 CN 115379163 A 2022.11.22 CN 115379163 A 1.一种用于车 载乘客报警的音视频合成方法, 其特 征在于: 包括以下步骤: S1、 获取乘客报警时的多帧人物场景图像, 并获取报警乘客的多帧深度图像; S2、 根据人物场景图像和深度图像, 提取报警乘客在每帧人物场景图像中的感兴趣区 域; S3、 获取乘客报警时的音频 数据, 并根据音频 数据生成对应的文字信息; S4、 基于连续帧人物场景图像 中的感兴趣区域, 获取报警乘客的口型变化特征, 确定对 应的文字信息及音频 数据; S5、 将人物场景图像、 音频 数据和文字信息合成具有字幕的音视频文件。 2.根据权利要求1所述的用于车载乘客报警的音视频合成方法, 其特征在于: S1中获取 报警乘客的多帧深度图像, 包括: 向多帧人物场景图像中的报警乘客投射结构光, 采集经 结构光调制的多帧调制图像; 逐帧解调 调制图像中各像素对应的相位信息, 以获取报警乘客的多帧深度图像。 3.根据权利要求2所述的用于车载乘客报 警的音视频合成方法, 其特征在于: 所述逐帧 解调调制图像中各像素对应的相位信息, 以获取报警乘客的多帧深度图像, 包括: 将逐帧解调调制图像中各像素对应的相位信 息转换为深度信 息, 根据深度信 息生成报 警乘客的多帧深度图像。 4.根据权利要求2所述的用于车载乘客报警的音视频合成方法, 其特征在于: S1中获取 乘客报警时的多帧人物场景图像, 包括: 乘客按下设置于各客室内的乘客紧急报警器上的报警按钮, 乘客紧急报警器激活, 自 动触发视频监控子系统对该乘客紧急报警器所在位置进行图像采集。 5.根据权利要求2所述的用于车载乘客报警的音视频合成方法, 其特征在于: S2中根据 人物场景图像和深度图像, 提取报警乘客在每帧人物场景图像中的感兴趣区域, 包括: 逐帧识别人物场景图像中包含报 警乘客的目标区域, 并从对应的深度图像中获取与目 标区域对应的深度信息; 根据目标区域对应的深度信息, 确定报警乘客在每帧人物场景图像中的感兴趣区域。 6.根据权利要求5所述的用于车载乘客报警的音视频合成方法, 其特征在于: S3 中根据 音频数据生成对应的文字信息, 包括: 对采集的音频 数据进行 预处理, 对预处 理后的音频 数据进行端点切分, 得到音频样本; 根据预设的最小静音长度和最短有效声 音对音频样本再次切分, 得到音频片段; 对各音频片段进行语音识别, 并将语音识别结果按顺序拼接起来, 获得音频数据对应 的文字信息 。 7.根据权利要求6所述的用于车载乘客报 警的音视频合成方法, 其特征在于: 所述对采 集的音频 数据进行 预处理, 包括: 接收系统内部音频组件自动采集的乘客紧急报 警器发出的音频数据, 并对采集的音频 数据进行 预处理。 8.根据权利要求6所述的用于车载乘客报警的音视频合成方法, 其特征在于: S4中基于 连续帧人物场景图像中的感兴趣区域, 获取报警乘客的口型变化特征, 确定对应的文字信 息及音频 数据, 包括: 获取连续帧人物场景图像中的感兴趣区域, 对感兴趣区域中报 警乘客的口型变化特征权 利 要 求 书 1/2 页 2 CN 115379163 A 2进行识别; 根据报警乘客的 口型变化特 征确定对应的文字信息及音频 数据。 9.根据权利要求8所述的用于车载乘客报警的音视频合成方法, 其特征在于: S5 中将人 物场景图像、 音频 数据和文字信息合成具有字幕的音视频文件, 包括: 根据确定的文字信 息, 对该连续帧人物场景图像中的某一帧与匹配的音频数据进行匹 配标记; 基于匹配标记, 逐帧将人物场景图像、 音频数据和文字信息合成具有字幕的音视频文 件。权 利 要 求 书 2/2 页 3 CN 115379163 A 3

PDF文档 专利 一种用于车载乘客报警的音视频合成方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于车载乘客报警的音视频合成方法 第 1 页 专利 一种用于车载乘客报警的音视频合成方法 第 2 页 专利 一种用于车载乘客报警的音视频合成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。