专利一种用于车载乘客报警的音视频合成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210849081.7 (22)申请日 2022.07.19 (71)申请人泰弗思科技（安徽）有限公司地址 230000 安徽省合肥市高新区玉兰大道767号机电产业园5 栋2层 (72)发明人张根波　 (74)专利代理机构合肥律众知识产权代理有限公司 34147 专利代理师殷娟 (51)Int.Cl. H04N 7/18(2006.01) H04M 11/04(2006.01) (54)发明名称一种用于车载乘客报警的音视频合成方法 (57)摘要本发明涉及音视频合成，具体涉及一种用于车载乘客报警的音视频合成方法，获取乘客报警时的多帧人物场景图像，并获取报警乘客的多帧深度图像；根据人物场景图像和深度图像，提取报警乘客在每帧人物场景图像中的感兴趣区域；获取乘客报警时的音频数据，并根据音频数据生成对应的文字信息；基于连续帧人物场景图像中的感兴趣区域，获取报警乘客的口型变化特征，确定对应的文字信息及音频数据；将人物场景图像、音频数据和文字信息合成具有字幕的音视频文件；本发明提供的技术方案能够有效克服现有技术所存在的无法对乘客报警时的音频数据、视频数据进行精确合成的缺陷。权利要求书2页说明书4页附图2页 CN 115379163 A 2022.11.22 CN 115379163 A 1.一种用于车载乘客报警的音视频合成方法，其特征在于：包括以下步骤： S1、获取乘客报警时的多帧人物场景图像，并获取报警乘客的多帧深度图像； S2、根据人物场景图像和深度图像，提取报警乘客在每帧人物场景图像中的感兴趣区域； S3、获取乘客报警时的音频数据，并根据音频数据生成对应的文字信息； S4、基于连续帧人物场景图像中的感兴趣区域，获取报警乘客的口型变化特征，确定对应的文字信息及音频数据； S5、将人物场景图像、音频数据和文字信息合成具有字幕的音视频文件。 2.根据权利要求1所述的用于车载乘客报警的音视频合成方法，其特征在于： S1中获取报警乘客的多帧深度图像，包括：向多帧人物场景图像中的报警乘客投射结构光，采集经结构光调制的多帧调制图像；逐帧解调调制图像中各像素对应的相位信息，以获取报警乘客的多帧深度图像。 3.根据权利要求2所述的用于车载乘客报警的音视频合成方法，其特征在于：所述逐帧解调调制图像中各像素对应的相位信息，以获取报警乘客的多帧深度图像，包括：将逐帧解调调制图像中各像素对应的相位信息转换为深度信息，根据深度信息生成报警乘客的多帧深度图像。 4.根据权利要求2所述的用于车载乘客报警的音视频合成方法，其特征在于： S1中获取乘客报警时的多帧人物场景图像，包括：乘客按下设置于各客室内的乘客紧急报警器上的报警按钮，乘客紧急报警器激活，自动触发视频监控子系统对该乘客紧急报警器所在位置进行图像采集。 5.根据权利要求2所述的用于车载乘客报警的音视频合成方法，其特征在于： S2中根据人物场景图像和深度图像，提取报警乘客在每帧人物场景图像中的感兴趣区域，包括：逐帧识别人物场景图像中包含报警乘客的目标区域，并从对应的深度图像中获取与目标区域对应的深度信息；根据目标区域对应的深度信息，确定报警乘客在每帧人物场景图像中的感兴趣区域。 6.根据权利要求5所述的用于车载乘客报警的音视频合成方法，其特征在于： S3 中根据音频数据生成对应的文字信息，包括：对采集的音频数据进行预处理，对预处理后的音频数据进行端点切分，得到音频样本；根据预设的最小静音长度和最短有效声音对音频样本再次切分，得到音频片段；对各音频片段进行语音识别，并将语音识别结果按顺序拼接起来，获得音频数据对应的文字信息。 7.根据权利要求6所述的用于车载乘客报警的音视频合成方法，其特征在于：所述对采集的音频数据进行预处理，包括：接收系统内部音频组件自动采集的乘客紧急报警器发出的音频数据，并对采集的音频数据进行预处理。 8.根据权利要求6所述的用于车载乘客报警的音视频合成方法，其特征在于： S4中基于连续帧人物场景图像中的感兴趣区域，获取报警乘客的口型变化特征，确定对应的文字信息及音频数据，包括：获取连续帧人物场景图像中的感兴趣区域，对感兴趣区域中报警乘客的口型变化特征权　利　要　求　书 1/2 页 2 CN 115379163 A 2进行识别；根据报警乘客的口型变化特征确定对应的文字信息及音频数据。 9.根据权利要求8所述的用于车载乘客报警的音视频合成方法，其特征在于： S5 中将人物场景图像、音频数据和文字信息合成具有字幕的音视频文件，包括：根据确定的文字信息，对该连续帧人物场景图像中的某一帧与匹配的音频数据进行匹配标记；基于匹配标记，逐帧将人物场景图像、音频数据和文字信息合成具有字幕的音视频文件。权　利　要　求　书 2/2 页 3 CN 115379163 A 3

专利 一种用于车载乘客报警的音视频合成方法

专利一种用于车载乘客报警的音视频合成方法