专利直播流对象跟踪方法及其装置、设备、介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210106703.7 (22)申请日 2022.01.28 (71)申请人广州方硅信息技术有限公司地址 511442 广东省广州市番禺区南村镇万博二路79号3108 (72)发明人曾家乐　 (74)专利代理机构广州利能知识产权代理事务所(普通合伙) 44673 代理人王增鑫 (51)Int.Cl. H04N 21/2187(2011.01) H04N 21/234(2011.01) H04N 21/431(2011.01) H04N 21/44(2011.01) H04N 21/442(2011.01)H04N 21/4788(2011.01) G10L 15/14(2006.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 15/26(2006.01) G06V 20/40(2022.01) G06F 9/451(2018.01) G06V 10/56(2022.01) G06V 10/44(2022.01) (54)发明名称直播流对象跟踪方法及其装置、设备、介质 (57)摘要本申请涉及网络直播技术领域，公开一种直播流对象跟踪方法及其装置、设备、介质，包括：向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据；对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。本申请提升图形用户界面中直播内容的可读性，从而改善用户体验。权利要求书2页说明书16页附图7页 CN 114401417 A 2022.04.26 CN 114401417 A 1.一种直播流对象跟踪方法，其特征在于，包括如下步骤：向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。 2.根据权利要求1所述的直播流对象跟踪方法，其特征在于，向直播间推送直播流，包括如下步骤：从显存中获取第三方程序的显示界面相对应的图像流；接收与主播客户端设备连接的摄像设备摄取的视频数据；接收与主播客户端设备连接的音频输入设备输入的音频数据；将所述图像流、视频数据合成视频流，再将其和音频数据合成所述直播流，将其推送至直播间播放。 3.根据权利要求1所述的直播流对象跟踪方法，其特征在于，对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象，包括如下步骤：提取所述音频数据的深层声学特征，构建相对应的声学特征向量；根据所述声学特征向量调用第一神经网络模型获得对应的音素序列，解码该音素序列获得所述口述文本；根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象。 4.根据权利要求3所述的直播流对象跟踪方法，其特征在于，根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象之前，包括如下步骤：获取用于竞技项目描述相对应的词条，所述竞技项目包括游戏项目或体育竞赛项目；筛选出参与所述竞技项目的目标对象的角色名称、角色技能名称相对应的对象文本信息；将所述对象文本信息关联相应的目标对象存储于所述信息列表中。 5.根据权利要求1所述的直播流对象跟踪方法，其特征在于，从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息，包括如下步骤：提取所述视频流中各个视频帧的深层图片特征，构建相对应的图片特征向量；根据所述图片特征向量调用第二神经网络模型识别出在该视频流的视频帧中的所述目标对象，获得所述目标对象在该视频流的视频帧中的实时位置；调用第三神经网络模型分割出所述目标对象对应的图片特征向量，对其进行边缘补偿计算，获得该目标对象的边缘轮廓信息，所述边缘轮廓信息包括所述目标对象对应的边缘轮廓及其对应的实时位置。 6.根据权利要求1所述的直播流对象跟踪方法，其特征在于，将所述边缘轮廓信息作为权　利　要　求　书 1/2 页 2 CN 114401417 A 2定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓，包括如下步骤：将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时间戳构成定位跟踪信息，将其上传至服务器推送至所述直播间，以由服务器下发该定位跟踪信息至连接该直播间的终端设备；检测终端设备显示跟踪对象开关启动状态，若检测该状态为开启，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓。 7.根据权利要求6所述的直播流对象跟踪方法，其特征在于，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓，包括如下步骤：根据所述定位跟踪信息中的边缘轮廓信息中的实时位置在所述视频流的视频帧中定位出该边缘轮廓信息中的边缘轮廓，提取出该视频帧中所述边缘轮廓的周边颜色；根据所述边缘轮廓的周边颜色中占比最高的颜色值，确认其对应的色域，获取区别于该色域的颜色值设为所述目标对象的边缘轮廓颜色；采用所述目标对象的边缘轮廓颜色对所述视频帧边缘轮廓进行渲染，以在所述视频流的播放界面中显示出所述目标对象的边缘轮廓。 8.一种直播流对象跟踪装置，其特征在于，包括：直播流推送模块，用于向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；语音翻译模块，用于对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；图像识别模块，用于从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；轮廓显示模块，用于将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。 9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。 10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。权　利　要　求　书 2/2 页 3 CN 114401417 A 3

专利 直播流对象跟踪方法及其装置、设备、介质

专利直播流对象跟踪方法及其装置、设备、介质